Compartir a través de


Desarrollo de aplicaciones y características de IA generativa responsable en Windows

En este documento se proporciona información general sobre las prácticas de desarrollo responsables recomendadas para usarlas a medida que se crean aplicaciones y características en Windows con inteligencia artificial generativa.

Directrices para el desarrollo responsable de las aplicaciones y características de IA generativa en Windows

Todos los equipos de Microsoft siguen los principios y procedimientos básicos para crear y enviar la inteligencia artificial de forma responsable, incluido Windows. Puede obtener más información sobre el enfoque de Microsoft para el desarrollo responsable en el Informe de transparencia de inteligencia artificial responsable de Microsoft. Windows sigue los pilares fundamentales del desarrollo RAI, que rigen, asignan, miden y administran, y que están alineados con el Marco de administración de riesgos de IA del Instituto Nacional de Estándares y Tecnología (NIST).

Gobernanza: directivas, prácticas y procesos

Los estándares son la base de los procesos de gobernanza y cumplimiento. Microsoft ha desarrollado nuestro propio estándar de IA responsable, incluidos seis principios que puede usar como punto de partida para desarrollar sus directrices para la IA responsable. Se recomienda crear principios de inteligencia artificial en el ciclo de vida de desarrollo de un extremo a otro, así como en los procesos y flujos de trabajo para el cumplimiento de las leyes y reglamentos en la privacidad, la seguridad y la inteligencia artificial responsable. Esto abarca desde la evaluación temprana de cada característica de IA, mediante herramientas como la lista de comprobación de equidad de IA y las directrices para la interacción con la IA humana: Microsoft Research, a la supervisión y revisión de las pruebas y los procesos de inteligencia artificial mediante herramientas como un cuadro de mandos de IA responsable, la documentación pública sobre las funcionalidades y limitaciones de las características de IA y los controles y divulgación de usuario: aviso, consentimiento, recopilación de datos e información de procesamiento, etc., en consonancia con las leyes de privacidad, los requisitos normativos y las directivas aplicables.

Asignación: identificación del riesgo

Entre los procedimientos recomendados para identificar riesgos se incluyen:

Pruebas de un extremo a otro

  • Formación de equipos rojos: el término Red Teaming (equipo rojo en español) ha descrito históricamente ataques adversarios sistemáticos para probar vulnerabilidades de seguridad. Con el aumento de los modelos de lenguaje grande (LLM), el término se extendió más allá de la ciberseguridad tradicional y evolucionó en el uso común para describir muchos tipos de sondeos, pruebas y ataques de sistemas de IA. Con los LLM, tanto el uso beneficioso como el perjudicial pueden producir resultados potencialmente dañinos, que pueden adoptar muchas formas, incluido el contenido perjudicial como la incitación al odio, la incitación o glorificación de la violencia o el contenido sexual.

  • Evaluación del modelo: además de probar un extremo a otro, también es importante evaluar el propio modelo.

    • Tarjeta de modelo: para los modelos disponibles públicamente, como los de HuggingFace, puede comprobar la tarjeta de cada modelo como una referencia útil para comprender si un modelo es el adecuado para su caso de uso. Obtenga más información sobre las tarjetas de modelo.

    • Pruebas manuales: los seres humanos realizan pruebas paso a paso sin scripts, lo que es un componente importante de la evaluación del modelo que admite...

      • Medición del progreso en un pequeño conjunto de problemas de prioridad. Al mitigar daños específicos, a menudo es más productivo seguir comprobando manualmente el progreso en un conjunto de datos pequeño hasta que el daño ya no se observe antes de pasar a la medición automatizada.

      • Definir e informar de métricas hasta que la medición automatizada sea lo suficientemente fiable como para usarla sola.

      • Comprobación de acceso puntual periódicamente para medir la calidad de la medición automática.

    • Pruebas automatizadas: las pruebas ejecutadas automáticamente también son un componente importante de la evaluación del modelo que admite...

      • La medición a gran escala con mayor cobertura para proporcionar resultados más completos.

      • Medición continua para supervisar cualquier regresión a medida que evolucionan el sistema, el uso y las mitigaciones.

    • Selección de modelos: seleccione un modelo adecuado para su propósito y edúquese para comprender sus capacidades, limitaciones y posibles desafíos de seguridad. Al probar el modelo, asegúrese de que genera resultados adecuados para su uso. Para empezar, los destinos de los orígenes de modelos de Microsoft (y que no son de Microsoft o código abierto) incluyen:

Medida: evaluación de riesgos y mitigación

Procedimientos recomendados:

  • Asignación de Content Moderator: Content Moderator comprueba el contenido de texto, de imágenes y de vídeos para encontrar material que pueda ser ofensivo, conflictivo o inapropiado. Más información: Introducción a Content Moderator (Aprendizaje de Microsoft Learn).

    • Uso de filtros de seguridad de contenido: este conjunto de modelos de clasificación de varias clases detecta cuatro categorías de contenido dañino (violencia, odio, sexo y autolesión) en cuatro niveles de gravedad respectivamente (seguro, bajo, medio y alto). Más información: Cómo configurar los filtros de contenido con Azure OpenAI Service.

    • Aplicar un meta aviso: un meta aviso es un mensaje del sistema que se incluye al principio de la solicitud y se usa para preparar el modelo con el contexto, las instrucciones y el resto de la información relevante para su caso de uso. Estas instrucciones se usan para guiar el comportamiento del modelo. Más información: Creación de barreras de seguridad eficaces con metaprompt / ingeniería de mensajes del sistema.

    • Usar listas de bloqueados: esto bloquea el uso de determinados términos o patrones en un mensaje. Más información: Uso de una lista de bloqueados en Azure OpenAI.

    • Familiarícese con la procedencia del modelo: la procedencia es el historial de propiedad de un modelo, o el quién-qué-dónde-cuándo, y es muy importante comprenderlo. ¿Quién recopiló los datos en un modelo? ¿A quién pertenecen los datos? ¿Qué tipo de datos se usan? ¿Dónde se recopilaron los datos? ¿Cuándo se recopilaron los datos? Saber de dónde proceden los datos del modelo puede ayudarle a evaluar su calidad y confiabilidad y evitar cualquier uso de datos no ético, injusto, sesgado o inexacto.

    • Usar una canalización estándar: use una canalización de moderación de contenido en lugar de extraer partes por etapas. Más información: Entender las canalizaciones de aprendizaje automático.

  • Aplicar mitigaciones de la interfaz de usuario: Proporcionan claridad importante al usuario sobre las funcionalidades y limitaciones de una característica basada en IA. Para ayudar a los usuarios y proporcionar transparencia sobre la característica, puede hacer lo siguiente:

    • Animar a los usuarios a editar salidas antes de aceptarlas

    • Resaltar posibles inexactitudes en las salidas de IA

    • Revelar el rol de la IA en la interacción

    • Citar referencias y fuentes

    • Limitar la longitud de las entradas y salidas, cuando corresponda

    • Proporcionar estructura de entrada o salida: las indicaciones deben seguir un formato estándar

    • Preparar respuestas predeterminadas para solicitudes controvertidas.

Administración: mitigación de los riesgos de IA

Entre las recomendaciones para mitigar los riesgos de IA se incluyen:

  • Supervisión de abusos: esta metodología detecta y mitiga instancias de contenido periódico o comportamientos que sugieren el uso del servicio de una manera que puede infringir el Código de conducta u otros términos de producto aplicables. Más información: supervisión de abusos.

  • Entrega por fases: implemente la solución de IA lentamente para controlar los informes entrantes y los problemas.

  • Plan de respuesta a incidentes: para cada riesgo de alta prioridad, evalúe lo que ocurrirá y cuánto tiempo tardará en responder a un incidente y cuál será el aspecto del proceso de respuesta.

  • Capacidad para desactivar la característica o el sistema: proporcione funcionalidad para desactivar la característica si un incidente está a punto de producirse o se ha producido que requiere pausar la funcionalidad para evitar daños adicionales.

  • Controles y bloqueos de acceso de usuario: desarrolle una manera de bloquear a los usuarios que usan incorrectamente un sistema.

  • Mecanismo de comentarios del usuario: secuencias para detectar problemas del lado del usuario.

  • Implementación responsable de los datos de telemetría: identifique, recopile y supervise señales que indican la satisfacción del usuario o su capacidad de usar el sistema según lo previsto, asegurándose de seguir las leyes de privacidad, las directivas y los compromisos aplicables. Use datos de telemetría para identificar brechas y mejorar el sistema.

Herramientas y recursos