Identificación de daños posibles

Completado

La primera fase de un proceso de inteligencia artificial generativa responsable es identificar los daños posibles que podrían afectar la solución planeada. Esta fase tiene los cuatro pasos que se muestran aquí:

Diagrama en el que se muestran los pasos para identificar clasificar, probar y compartir los daños posibles.

  1. Identificación de daños posibles
  2. Clasificación de daños posibles por orden de prioridad
  3. Prueba y comprobación de los daños clasificados por orden de prioridad
  4. Documentación y uso compartido de los daños comprobados

1: Identificación de daños posibles

Los daños posibles pertinentes para la solución de inteligencia artificial generativa dependen de varios factores, incluidos los servicios y modelos específicos que se usan para generar resultados, así como los datos de ajuste o base que se usan para personalizar las salidas. Entre los tipos comunes de daños posibles en una solución de inteligencia artificial generativa podemos indicar:

  • Generar contenido ofensivo, peyorativo o discriminador
  • Generar contenido que contiene imprecisiones fácticas
  • Generar contenido que fomenta o admite prácticas o comportamientos ilícitos o no éticos

Para comprender completamente las limitaciones conocidas y el comportamiento de los servicios y modelos de la solución, consulte la documentación disponible. Por ejemplo, Azure OpenAI Service incluye una nota sobre transparencia, la que puede usar para comprender consideraciones específicas relacionadas con el servicio y los modelos que incluye. Además, los desarrolladores de modelos individuales pueden proporcionar documentación como la tarjeta del sistema OpenAI para el modelo GPT-4.

Considere la posibilidad de revisar las instrucciones que aparecen en la guía de valoración del impacto de la IA responsable de Microsoft y de utilizar la plantilla de valoración del impacto de la IA responsable para documentar los daños posibles.

Revise la información y las directrices de los recursos que usa para ayudar a identificar posibles daños.

2: Clasificación de los daños por orden de prioridad

Para cada daño posible que haya identificado, evalúe la probabilidad de que ocurra y, si ocurre, el nivel de impacto resultante. A continuación, use esta información para clasificar por orden de prioridad los daños, poniendo primero los daños más probables y que tienen el mayor impacto. Esta clasificación por orden de prioridad le permitirá centrarse en buscar y mitigar los riesgos más perjudiciales en la solución.

La clasificación por orden de prioridad debe tener en cuenta el uso previsto de la solución, así como el potencial de uso indebido; y puede ser subjetiva. Por ejemplo, supongamos que está desarrollando un copiloto para cocina inteligente que ayuda a chefs y cocineros aficionados a preparar recetas. Los daños posibles pueden incluir:

  • La solución estima tiempos de cocción inexactos, lo que genera alimentos poco cocidos que puede causar enfermedades.
  • Si se le pide, la solución proporciona una receta para preparar un veneno letal que se puede crear a partir de ingredientes cotidianos.

Si bien ninguno de estos resultados es deseable, puede decidir que el potencial de la solución para apoyar la creación de un veneno letal tiene un mayor impacto que el potencial de elaborar alimentos poco cocidos. Sin embargo, dado el escenario de uso principal de la solución, también puede suponer que es probable que la frecuencia con la que se sugieren tiempos de cocción inexactos sea mucho mayor que el número de usuarios que solicitan explícitamente una receta de veneno. Determinar la clasificación por orden de prioridad final es un tema de discusión para el equipo de desarrollo, que puede incluir consultar a expertos legales o de directivas para garantizar una clasificación por orden de prioridad adecuada.

3: Prueba y comprobación de la presencia de daños

Ahora que tiene una lista clasificada por orden de prioridad, puede probar la solución para comprobar que se producen daños; y, si es así, en qué condiciones. Las pruebas también pueden revelar la presencia de daños no identificados previamente que puede agregar a la lista.

Un enfoque común para probar daños o vulnerabilidades posibles en una solución de software es usar pruebas de "equipo rojo", en las que un equipo de evaluadores sondea la solución deliberadamente para detectar puntos débiles e intentos de generar resultados perjudiciales. Las pruebas de ejemplo de la solución del copiloto para cocina inteligente que se analizaron anteriormente pueden incluir la solicitud de recetas de veneno o recetas rápidas que incluyen ingredientes que se deben cocinar exhaustivamente. Los éxitos del equipo rojo se deben documentar y revisar para ayudar a determinar la probabilidad realista de que se produzca un resultado dañino cuando se usa la solución.

Nota

La formación de equipos rojos es una estrategia que se suele usar para encontrar vulnerabilidades de seguridad u otros puntos débiles que pueden poner en peligro la integridad de una solución de software. Al ampliar este enfoque para buscar contenido dañino a partir de la inteligencia artificial generativa, puede implementar un proceso de inteligencia artificial responsable que se base en los procedimientos de ciberseguridad existentes y los complemente.

Para más información sobre la formación de equipos rojos para soluciones de inteligencia artificial generativa, consulte Introducción a la formación de equipos rojos en modelos de lenguaje grandes (LLM) en la documentación de Azure OpenAI Service.

4: Documentación y uso compartido de los detalles de los daños

Una vez que recopile evidencia que respalde la presencia de daños posibles en la solución, documente los detalles y compártalos con las partes interesadas. Se debe conservar la lista de daños clasificados por orden de prioridad y se le deben agregar los nuevos daños que se identifiquen.