Compartir vía


Administración de IA – Proceso para administrar la IA

En este artículo se describe el proceso organizativo para administrar cargas de trabajo de inteligencia artificial. Proporciona recomendaciones para administrar las cargas de trabajo de IA desde el desarrollo, la implantación y las operaciones. La administración eficaz de la IA requiere un enfoque estructurado desde el desarrollo hasta la implantación y las operaciones en curso. Las empresas necesitan prácticas estandarizadas y una supervisión periódica para evitar problemas como el desfase de datos y modelos, garantizando que la IA siga siendo precisa y fiable a lo largo del tiempo.

Diagrama que muestra el proceso de adopción de la inteligencia artificial: estrategia de IA, plan de IA, listo para IA, gobernanza de IA, administración de IA e IA segura.

Administración de operaciones de IA

La administración de las operaciones de IA garantiza la visibilidad y la coherencia durante todo el ciclo de vida de la IA. Mediante la adopción de marcos operativos como MLOps, la creación de entornos aislados y el establecimiento de canalizaciones CI/CD, puede supervisar el desarrollo, las pruebas y la implantación.

  • Adoptar un marco operativo de IA. Implemente marcos MLOps (operaciones de aprendizaje automático) para flujos de trabajo de aprendizaje automático tradicionales y GenAIOps para cargas de trabajo de IA generativa. Estos marcos operativos organizan el ciclo integral de desarrollo de la IA. Cada framework afecta el enfoque y las herramientas del equipo encargado de la carga de trabajo. Para obtener más información, consulte MLOps y GenAIOps.

  • Estandarizar las herramientas de desarrollo de IA. Defina y estandarice el uso de SDK y API para garantizar la coherencia entre los equipos de desarrollo. Herramientas como Azure SDK para cargas de trabajo de IA proporcionan bibliotecas y API optimizadas para escalar modelos de IA e integrarlos en aplicaciones. Para la IA generativa, estandarice su plataforma de IA y orquestadores, como Semantic Kernel, LangChain y Prompt Flow.

  • Utilice un entorno sandbox para la experimentación de IA. Utilice un entorno aislado para la experimentación de modelos de IA. Es necesario mantener la coherencia entre los entornos de desarrollo, prueba y producción. Por lo tanto, el entorno aislado debe ser distinto de los entornos de desarrollo, prueba y producción en el ciclo de vida de desarrollo de IA. Si cambia los modelos de implementación y gobernanza entre los entornos de desarrollo, prueba y producción, puede ocultar e introducir cambios de última hora.

  • Establezca canalizaciones de integración continua y entrega continua para la implantación. Asegúrese de que sus canalizaciones de datos cubren las comprobaciones de calidad del código, incluidos el linting y el análisis estático. Las pipelines de datos también deben incluir pruebas unitarias y de integración, así como flujos de experimentación y evaluación. Por último, incorpore pasos de implementación de producción, como la promoción de versiones a entornos de prueba y producción tras aprobaciones manuales. Mantenga la separación entre los modelos, los flujos de avisos rápidos y la interfaz de usuario del cliente para garantizar que las actualizaciones de un componente no afecten a los demás. Cada flujo debe tener su propio ciclo de vida para la promoción independiente.

Administrar la implementación de la IA

La administración de la implementación de IA consiste en definir quién puede desplegar recursos de IA y quién gobierna estos puntos de conexión. Un enfoque estructurado, dirigido por un centro de excelencia de IA, ayuda a las empresas a decidir si los equipos de carga de trabajo o un equipo central deben administrar los recursos, equilibrando la velocidad de desarrollo con los requisitos de gobernanza. El CdE de IA debe liderar el esfuerzo para determinar el mejor enfoque.

  • Utilice la administración de los recursos de IA por equipos de carga de trabajo para un desarrollo más rápido. Cuando los equipos de carga de trabajo administran los recursos de IA, tienen autonomía para desplegar y administrar los recursos de IA dentro de los límites de sus políticas de gobernanza. Utilice Azure Policy para aplicar la gobernanza de forma coherente en todos los entornos de carga de trabajo. Cree y comunique las políticas de IA que los equipos de carga de trabajo deben seguir para abordar cualquier brecha de gobernanza. Por ejemplo, cree políticas de IA generativa para aplicar la configuración de filtros de contenido y evitar el uso de modelos no permitidos. Comunique claramente estas políticas a los equipos de carga de trabajo y realice auditorías con regularidad.

    Diagrama que muestra la administración de las cargas de trabajo de IA por parte de los equipos de carga de trabajo.Figura 1. Administración de la carga de trabajo de los recursos de IA.

  • Utilizar una administración compartida de los recursos de IA aumentó la gobernanza de la IA. En un enfoque de administración compartida de la IA, un equipo central administra los recursos de IA para todas las cargas de trabajo de IA. Este equipo implementa los recursos principales de IA y configura la seguridad y la gobernanza que utilizan todos los equipos de cargas de trabajo. Utilice este enfoque si desea que un único equipo controle las implementaciones y la gobernanza de la IA en todas las cargas de trabajo.

    Diagrama que muestra la administración compartida de las cargas de trabajo de IA.Figura 2. Administración de los recursos de IA por parte de un equipo central de IA.

Administrar el uso compartido de puntos de conexión de IA

Compartir puntos de conexión de IA entre cargas de trabajo puede agilizar la administración, pero requiere una cuidadosa consideración de los requisitos de gobernanza y modelo. Las empresas solo deben compartir puntos de conexión dentro de una única carga de trabajo con necesidades coherentes, ya que el uso compartido entre distintas necesidades puede complicar la gobernanza y aumentar los costes.

  • Evite compartir puntos de conexión de IA cuando las necesidades de gobernanza y modelo varíen. Las cargas de trabajo que requieren diferentes configuraciones de filtro de contenido, como la gobernanza de la entrada y la salida, no deberían compartir un punto de conexión. Asimismo, no comparta un único punto de conexión de IA si un modelo de IA diferente proporciona una forma más rentable de satisfacer los requisitos de la carga de trabajo.

  • Comparta puntos de conexión de IA solo dentro de una única carga de trabajo. Compartir un punto de conexión de IA funciona mejor cuando un equipo de carga de trabajo tiene varias aplicaciones como parte de la misma carga de trabajo. El uso compartido de puntos de conexión de IA proporciona la menor sobrecarga de administración y simplifica la implantación. Estas aplicaciones deben compartir las mismas necesidades de gobernanza y de modelo de IA. El uso compartido de puntos de conexión puede hacer que se alcancen los límites de velocidad y de cuota. La mayoría de los servicios Azure tienen límites por suscripción. Dentro de una suscripción, cada región tiene límites de cuota.

Administración de modelos de IA

La administración de modelos de IA implica establecer estructuras de gobernanza, supervisión continua y reentrenamiento para mantener el rendimiento a lo largo del tiempo. Este proceso ayuda a las empresas a alinear los modelos con las normas éticas, realizar un seguimiento del rendimiento del modelo y garantizar que los sistemas de IA sigan siendo eficaces y estén alineados con los objetivos empresariales.

  • Establezca una estructura de gobierno para la supervisión de la IA. Cree un centro de excelencia de (CdE de IA) o nombre a un responsable de IA. Deben garantizar el cumplimiento de las normas de IA responsables. Deben tomar decisiones sobre si es necesario ajustar los sistemas basándose en estos informes. Utilice el panel de IA responsable para generar informes sobre los resultados de los modelos.

  • Defina una línea de base de medición de la IA. Establezca una línea de base de medición para garantizar que los modelos de IA se ajustan a los objetivos empresariales y a las normas éticas. Utilice KPI relacionados con los principios de la IA responsable, como la equidad, la transparencia y la precisión. Asigne estos KPI a las cargas de trabajo de la IA. Por ejemplo, en un chatbot de atención al cliente, mida la equidad evaluando el rendimiento del modelo en diferentes grupos demográficos. Para realizar estas mediciones, comience con las herramientas utilizadas en el Panel de control de IA responsable.

  • Implemente una supervisión continua. Las cargas de trabajo de la IA pueden cambiar con el tiempo debido a la evolución de los datos, las actualizaciones de los modelos o los cambios en el comportamiento de los usuarios. Supervise los modelos de IA, los recursos de IA y los datos de IA para garantizar que estas cargas de trabajo se mantienen alineadas con los KPI. Lleve a cabo auditorías para evaluar los sistemas de IA con respecto a los principios y métricas de IA responsable definidos.

  • Identifique las causas fundamentales de los problemas de rendimiento. Localice el origen del problema cuando se detecte un descenso del rendimiento o de la precisión mediante la supervisión de la IA. Asegúrese de tener visibilidad de cada fase de la interacción para aislar el problema y aplicar medidas correctivas con mayor rapidez. Por ejemplo, si un chatbot de atención al cliente genera respuestas imprecisas, la supervisión debería ayudarle a determinar si el error está en la elaboración de la consulta o en la comprensión del contexto por parte del modelo. Utilice herramientas integradas como Azure Monitor y Application Insights para identificar proactivamente cuellos de botella y anomalías en el rendimiento.

  • Seguimiento de la retirada de modelos. Realice un seguimiento de la retirada de modelos preentrenados para evitar problemas de rendimiento cuando finalice el soporte del proveedor. Por ejemplo, un modelo de IA generativa podría quedar obsoleto, por lo que necesitaría actualizarlo para mantener la funcionalidad. Studio muestra la fecha de retirada del modelo para todas las implantaciones.

  • Vuelva a entrenar los modelos de IA según sea necesario. Tenga en cuenta que los modelos se degradan con el tiempo debido a los cambios en los datos. Programe un reentrenamiento periódico basado en el rendimiento del modelo o en las necesidades de la empresa para garantizar que el sistema de IA sigue siendo relevante. El reentrenamiento puede ser costoso, así que evalúe el coste del entrenamiento inicial y utilícelo para determinar con qué frecuencia debe reentrenar los modelos de IA. Mantenga un control de las versiones de los modelos y garantice un mecanismo de reversión para las versiones de bajo rendimiento.

  • Establezca un proceso de promoción de modelos. Utilice puertas de calidad para promocionar modelos entrenados, afinados y reentrenados a entornos superiores en función de criterios de rendimiento. Los criterios de rendimiento son exclusivos de cada aplicación.

Administrar los costes de la IA

La administración de los costes de la IA requiere una comprensión clara de los gastos relacionados con recursos como la informática, el almacenamiento y el procesamiento de tokens. Debe aplicar las mejores prácticas de administración de costes, supervisar el uso y configurar alertas automáticas para evitar gastos inesperados y optimizar la eficiencia de los recursos.

  • Siga las mejores prácticas de administración de costes para cada servicio. Cada servicio Azure tiene características específicas y prácticas recomendadas que maximizan la optimización de costes. Familiarícese con las siguientes instrucciones para planear y administrar costos en Azure AI Foundry, Azure OpenAI Servicey azure Machine Learning.

  • Supervise y maximice la eficiencia de la facturación. Comprenda los puntos de interrupción de costes para evitar cargos innecesarios. Los ejemplos incluyen hacer un uso completo de los umbrales de precio fijo para la generación de imágenes o el ajuste por hora. Realice un seguimiento de sus patrones de uso, incluidos los tokens por minuto (TPM) y las solicitudes por minuto (RPM), y ajuste los modelos y la arquitectura en consecuencia. Considere un modelo de facturación basado en compromisos para patrones de uso consistentes.

  • Establezca alertas de costes automatizadas. Utilice alertas de presupuesto que le notifiquen cargos inesperados y establezca estrategias de presupuesto para controlar y predecir sus gastos de IA.

Para las aplicaciones de IA generativa que utilizan Azure OpenAI, consulte estas recomendaciones de optimización de costes.

Administrar datos de IA

La administración eficaz de los datos de IA se centra en mantener la precisión, integridad y sensibilidad de los datos durante todo el ciclo de vida de la IA. Al seleccionar conjuntos de datos de alta calidad y asegurar las canalizaciones de datos, su organización puede garantizar que los datos sigan siendo fiables y cumplan con los cambiantes requisitos normativos.

  • Mantenga la precisión de los datos y conserve conjuntos de datos de oro. Desarrolle un conjunto de datos fidedignos que se utilicen para pruebas y validaciones periódicas en ambos tipos de IA. Seleccione continuamente este conjunto de datos para garantizar que refleje información actualizada y precisa.

  • Garantice la integridad del pipeline de datos. Desarrolle y mantenga canales de datos personalizados para garantizar la integridad de los datos desde su recogida hasta su preprocesamiento y almacenamiento. Cada paso del pipeline debe ser seguro para mantener el rendimiento y la fiabilidad en ambos tipos de aplicaciones de IA.

  • Administrar los cambios de sensibilidad de los datos. Comprenda que la clasificación de la sensibilidad de los datos puede cambiar con el tiempo. Es posible que desee reclasificar datos de baja sensibilidad como altamente sensibles debido a cambios empresariales o normativos. Desarrolle procesos para eliminar o reemplazar datos sensibles en sistemas posteriores. Microsoft Defender for Cloud y Microsoft Purview pueden ayudarle a etiquetar y administrar los datos confidenciales. Este proceso comienza con un buen Data Catalog antes de la ingesta de IA. Cuando se produzcan cambios, identifique todos los modelos o sistemas que utilizan los datos confidenciales. Si es posible, vuelva a entrenar los modelos de IA utilizando conjuntos de datos que excluyan los datos confidenciales reclasificados.

Administrar la continuidad del negocio de la IA

La continuidad del negocio y la recuperación ante desastres para la IA implican la creación de despliegues multirregión y la comprobación periódica de los planes de recuperación. Estas estrategias ayudan a garantizar que los sistemas de IA permanezcan operativos durante las interrupciones y minimizan el riesgo de interrupciones prolongadas o pérdida de datos.

  • Utilice despliegues multirregión para la IA. Realice implementaciones multirregionales para garantizar una alta disponibilidad y resistencia de los sistemas de IA generativa y no generativa. Estas estrategias minimizan el tiempo de inactividad y garantizan que las aplicaciones de IA críticas permanezcan operativas durante cortes regionales o fallos de infraestructura. Asegúrese de implementar la redundancia necesaria para los modelos entrenados y afinados para evitar la necesidad de reentrenamiento durante una interrupción.

  • Pruebe y valide periódicamente los planes de recuperación en caso de catástrofe. Realice pruebas periódicas de los planes de recuperación ante desastres para verificar que puede restaurar los sistemas de IA generativa y no generativa de forma eficaz. Incluya pruebas de los procesos de restauración de datos y procedimientos de validación para garantizar que todos los componentes de la IA funcionan correctamente tras la recuperación. La validación periódica garantiza que la organización está preparada para incidentes del mundo real y minimiza el riesgo de fallos durante la recuperación.

  • Administrar y realizar un seguimiento de los cambios en los sistemas de IA. Asegúrese de que todos los cambios en los modelos, datos y configuraciones se administran mediante sistemas de control de versiones como Git. Esto es fundamental para realizar un seguimiento de las modificaciones y garantizar la capacidad de restaurar versiones anteriores durante la recuperación. En el caso de la IA generativa y no generativa, debe existir una auditoría automatizada de los cambios en los modelos y sistemas para poder identificar y revertir rápidamente las alteraciones no planificadas.

Paso siguiente