Nota sobre transparencia para las evaluaciones de riesgo y seguridad de Fundición de IA de Azure (versión preliminar)

Artículo
01/13/2025

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

¿Qué es una nota sobre transparencia?

Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se verán afectadas por ella, así como los entornos en los que se implementan. La creación de un sistema adecuado a su finalidad requiere comprender cómo funciona la tecnología, cuáles son sus capacidades y limitaciones, y cómo conseguir el mejor rendimiento. Las notas de transparencia de Microsoft están diseñadas para ayudarle a entender cómo funciona nuestra tecnología de inteligencia artificial, las elecciones que los propietarios del sistema pueden hacer que influyan en el rendimiento y el comportamiento del sistema y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas sobre transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.

Las notas sobre transparencia de Microsoft forman parte de un esfuerzo más amplio para poner en práctica nuestros principios de inteligencia artificial. Para más información, consulte los principios de inteligencia artificial de Microsoft.

Conceptos básicos de las evaluaciones de riesgo y seguridad de Fundición de IA de Azure (versión preliminar)

Introducción

Las evaluaciones de riesgo y seguridad de Fundición de IA de Azure permiten a los usuarios evaluar el resultado de su aplicación de IA generativa en busca de riesgos de contenido textual: contenido de odio e injusto, contenido sexual, contenido violento, contenido relacionado con autolesiones, vulnerabilidad de jailbreak directa e indirecta y material protegido en el contenido. Las evaluaciones de seguridad también pueden ayudar a generar conjuntos de datos adversarios para ayudarle a acelerar y aumentar la operación de formación de equipos rojos (red teaming). Las evaluaciones de seguridad de Azure AI Foundry reflejan los compromisos de Microsoft de garantizar que los sistemas de IA se construyan de manera segura y responsable, poniendo en práctica nuestros principios de IA responsable.

Términos clave

El contenido injusto y de odio (para texto e imágenes) hace referencia a cualquier lenguaje o imagen que incite al odio o a representaciones injustas de individuos y grupos sociales en función de factores como la raza, la etnia, la nacionalidad, el género, la orientación sexual, la religión, el estado de inmigración, la capacidad, la apariencia personal y el tamaño corporal, entre otros. Un injusticia se produce cuando los sistemas de inteligencia artificial tratan o representan grupos sociales de forma desigual, lo que crea y contribuye a las desigualdades sociales.
El contenido sexual (para texto e imágenes) incluye lenguaje o imágenes relativas a órganos anatómicos y genitales, relaciones románticas, actos representados en términos eróticos, embarazo, actos sexuales físicos (incluidas agresiones o violencia sexual), prostitución, pornografía y abuso sexual.
El contenido violento (para texto e imágenes) incluye el lenguaje o las imágenes relativas a acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo. También incluye descripciones de armas y pistolas (y entidades relacionadas, como fabricantes y asociaciones).
El contenido relacionado con la autolesión (para texto e imágenes) incluye el lenguaje o las imágenes relativas a acciones destinadas a herir, lesionar o dañar el propio cuerpo o a suicidarse.
El contenido de material protegido (para texto), contenido textual conocido, por ejemplo, letras de canciones, artículos, recetas y contenido web seleccionado, que podría generarse por modelos de lenguaje grandes. Al detectar e impedir la visualización de material protegido, las organizaciones pueden garantizar el cumplimiento de los derechos de propiedad intelectual y preservar la originalidad del contenido.
El contenido material protegido (para imágenes) hace referencia a ciertos contenidos visuales protegidos por derechos de autor, como logotipos y marcas, ilustraciones o personajes de ficción. El sistema usa un modelo de base de imagen a texto para identificar si este contenido está presente.
Jailbreak directo, ataques de solicitudes directas o ataques de inyección de solicitudes de usuario, hace referencia a usuarios que manipulan solicitudes para insertar entradas dañinas en los LLM para distorsionar las acciones y salidas. Un ejemplo de un comando de jailbreak es un ataque "DAN" (Do Anything Now), que puede engañar al LLM para que genere contenido inapropiado o ignore las restricciones impuestas por el sistema.
Jailbreak indirecto, ataques de mensajes indirectos o ataques de inyección de mensajes entre dominios, hace referencia a cuando se ocultan instrucciones malintencionadas dentro de los datos que un sistema de inteligencia artificial procesa o a partir de los cuales genera contenido. Estos datos pueden incluir correos electrónicos, documentos, sitios web u otros orígenes que no se hayan creado directamente por el desarrollador o el usuario y pueden conducir a la generación de contenidos inapropiados o a ignorar las restricciones impuestas por el sistema.
La tasa de defectos (riesgo de contenido) se define como el porcentaje de instancias del conjunto de datos de prueba que supera un umbral en la escala de gravedad en función de todo el tamaño del conjunto de datos.
El término Equipo rojo (Red-teaming) ha descrito históricamente ataques adversarios sistemáticos para probar vulnerabilidades de seguridad. Con el aumento de los modelos de lenguaje grande (LLM), el término se extendió más allá de la ciberseguridad tradicional y evolucionó en el uso común para describir muchos tipos de sondeos, pruebas y ataques de sistemas de IA. Con los LLM, tanto el uso beneficioso como el perjudicial pueden producir resultados potencialmente dañinos, que pueden adoptar muchas formas, incluido el contenido perjudicial como discursos de odio, la incitación o glorificación de la violencia, referencia a contenido de autolesión o contenido sexual.

Funcionalidades

Comportamiento del sistema

Fundición de IA de Azure proporciona un modelo GPT-4o de Azure OpenAI y organiza ataques adversarios contra su aplicación para generar un conjunto de datos de prueba de alta calidad. A continuación, aprovisiona otro modelo GPT-4o para anotar el conjunto de datos de prueba para el contenido y la seguridad. Los usuarios proporcionan el punto de conexión de la aplicación de IA generativa que quieren probar, y las evaluaciones de seguridad generarán un conjunto de datos de prueba estáticos contra ese punto de conexión junto con su etiqueta de riesgo de contenido (muy bajo, bajo, medio, alto) o etiqueta de detección de riesgo de contenido (verdadero o falso) y el razonamiento para la etiqueta generada por la IA.

Casos de uso

Uso previsto

Las evaluaciones de seguridad no están diseñadas para usarse con ningún fin distinto de evaluar los riesgos de contenido y las vulnerabilidades de jailbreak de la aplicación de IA generativa:

Evaluación de su aplicación de IA generativa antes de la implementación: mediante el asistente de evaluación en el portal de Azure AI Foundry o el SDK de Python de Azure AI, las evaluaciones de seguridad se pueden evaluar de manera automatizada para evaluar posibles riesgos de contenido o seguridad.
Aumento de las operaciones de formación de equipos rojos: mediante el simulador adversario, las evaluaciones de seguridad pueden simular interacciones adversarias con la aplicación de IA generativa para intentar descubrir los riesgos de contenido y seguridad.
Comunicación de riesgos de contenido y seguridad a las partes interesadas: mediante el portal de Azure AI Foundry, puede compartir el acceso a su proyecto de Azure AI Foundry con resultados de evaluaciones de seguridad con auditores o partes interesadas en cumplimiento.

Consideraciones al elegir un caso de uso

Alentamos a los clientes a aprovechar las evaluaciones de seguridad de Azure AI Foundry en sus soluciones o aplicaciones innovadoras. Sin embargo, estas son algunas consideraciones a tener en cuenta para elegir un caso de uso:

Las evaluaciones de seguridad deben incluir la intervención humana: mediante el uso de evaluaciones automatizadas como Azure AI Foundry, las evaluaciones de seguridad deben incluir revisores humanos, como expertos en el dominio, para evaluar si su aplicación de IA generativa se ha probado exhaustivamente antes de su implementación para los usuarios finales.
Las evaluaciones de seguridad no incluyen una cobertura total e integral: si bien las evaluaciones de seguridad pueden brindar una manera de aumentar sus pruebas para detectar posibles riesgos de contenido o seguridad, no fueron diseñadas para reemplazar las operaciones manuales de equipos rojos específicamente orientadas al dominio de su aplicación, los casos de uso y el tipo de usuarios finales.
Escenarios admitidos:
- Para la simulación adversaria: respuesta a preguntas, chat multiturno, resumen, búsqueda, reescritura de texto, y generación de contenido sin fundamento y con fundamento.
- Para anotaciones automatizadas: respuesta a preguntas y chat multiturno.
Actualmente, el servicio se usa mejor con el dominio inglés solo para generaciones textuales. Se considerarán características adicionales, incluida la compatibilidad con varios modelos, para futuras versiones.
La cobertura de los riesgos de contenido proporcionados en las evaluaciones de seguridad es una submuestra de un número limitado de grupos y temas marginados:
- La métrica de odio e injusticia incluye cierta cobertura para un número limitado de grupos marginados para el factor demográfico de género (por ejemplo, hombres, mujeres, personas no binarias) y raza, ascendencia, origen étnico y nacionalidad (por ejemplo, negro, mexicano, europeo). No todos los grupos marginados de género y raza, ascendencia, etnicidad y nacionalidad están cubiertos. Otros factores demográficos relevantes para el odio y la injusticia no tienen cobertura actualmente (por ejemplo, discapacidad, sexualidad, religión).
- Las métricas de contenido sexual, violento y autolesión se basan en una conceptualización preliminar de estos daños que están menos desarrollados que el odio y la injusticia. Esto significa que podemos hacer alegaciones menos fuertes sobre la cobertura de la medición y qué tan bien las mediciones representan las distintas formas en que pueden producirse estos daños. La cobertura de estos tipos de contenido incluye un número limitado de temas relacionados con el sexo (por ejemplo, violencia sexual, relaciones, actos sexuales), violencia (por ejemplo, abuso, lesiones a otros, secuestro) y autolesiones (por ejemplo, muerte intencional, autolesiones intencionales, trastornos alimenticios).
Las evaluaciones de seguridad de Azure AI Foundry actualmente no permiten complementos ni extensibilidad.
Para mantener la calidad actualizada y mejorar la cobertura, apuntaremos a una cadencia de futuras versiones de mejoras en las capacidades de anotación y simulación adversarial del servicio.

Limitaciones técnicas, factores operativos e intervalos

El campo de los modelos de lenguaje grande (LLM) continúa evolucionando a un ritmo rápido, lo que requiere una mejora continua de las técnicas de evaluación para garantizar una implementación segura y confiable del sistema de inteligencia artificial. Las evaluaciones de seguridad de Azure AI Foundry reflejan el compromiso de Microsoft de seguir innovando en el campo de la evaluación de LLM. Nuestro objetivo es proporcionar las mejores herramientas para ayudarle a evaluar la seguridad de las aplicaciones de IA generativa, pero reconocemos que la evaluación eficaz es un trabajo continuo en curso.
Actualmente, la personalización de las evaluaciones de seguridad de Azure AI Foundry es limitada. Solo esperamos que los usuarios proporcionen su punto de conexión de aplicación de IA generativa de entrada y nuestro servicio generará un conjunto de datos estático etiquetado para el riesgo de contenido.
Por último, debe señalarse que este sistema no automatiza ninguna acción ni tarea, solo proporciona una evaluación de las salidas de la aplicación de IA generativa, que debe revisar un humano responsable de la toma de decisiones en el bucle antes de elegir implementar la aplicación o el sistema de IA generativa en producción para los usuarios finales.

Rendimiento del sistema

Prácticas recomendadas para mejorar el rendimiento del sistema

Al tener en cuenta el dominio, que podría tratar alguna parte del contenido de forma más susceptible que otro, considere la posibilidad de ajustar el umbral para calcular la tasa de defectos.
Al usar las evaluaciones de seguridad automatizadas, a veces puede haber un error en las etiquetas generadas por IA para la gravedad de un riesgo de contenido o su razonamiento. Hay una columna de comentarios humanos manual para habilitar la validación con el método humna-in-the-loop de los resultados de evaluación de seguridad automatizada.

Evaluación de las evaluaciones de seguridad de Azure AI Foundry

Métodos de evaluación

Para todos los tipos de riesgo de contenido admitidos, hemos verificado internamente la calidad comparando la tasa de coincidencias aproximadas entre los etiquetadores humanos que utilizan una escala de gravedad de 0 a 7 y el anotador automático de las evaluaciones de seguridad que también utiliza una escala de gravedad de 0 a 7 en los mismos conjuntos de datos. Para cada área de riesgo, teníamos etiquetas humanas y una etiqueta de anotador automatizada 500 en inglés, textos de un solo turno, 250 generaciones de texto a imagen de un solo turno y 250 texto multi modal con generaciones de imágenes a texto. Los etiquetadores humanos y el anotador automático no usaron exactamente las mismas versiones de las pautas de anotación; si bien las pautas del anotador automático se derivaron de las pautas para humanos, desde entonces han divergido en diversos grados (las pautas sobre odio e injusticia fueron las que más divergieron). A pesar de estas pequeñas y moderadas diferencias, creemos que sigue siendo útil compartir tendencias generales e información de nuestra comparación de coincidencias aproximadas. En nuestras comparaciones, buscamos coincidencias con una tolerancia de 2 niveles (donde la etiqueta humana coincide exactamente con la etiqueta del anotador automatizado o estaba dentro de 2 niveles por encima o por debajo de la gravedad), coincide con una tolerancia de 1 nivel y coincide con una tolerancia de 0 niveles.

Evaluation results

En general, vimos una alta tasa de coincidencias aproximadas entre los riesgos de autolesión y contenido sexual en todos los niveles de tolerancia. Para la violencia y para el odio y la injusticia, la tasa aproximada de coincidencias entre los niveles de tolerancia fue menor. Estos resultados se produjeron en parte debido a una mayor desviación en el contenido de las directrices de anotación para los etiquetadores humanos frente al anotador automatizado y, en parte, debido a la mayor cantidad de contenido y complejidad en las directrices específicas.

Aunque uestras comparaciones se realizan entre entidades que utilizaron pautas de anotación leves a moderadamente diferentes (y, por lo tanto, no son comparaciones estándar de acuerdo con el modelo humano), estas comparaciones brindan una estimación de la calidad que podemos esperar de las evaluaciones de seguridad de Azure AI Foundry dados los parámetros de estas comparaciones. En concreto, solo examinamos las muestras en inglés, por lo que es posible que nuestros hallazgos no se generalicen en otros idiomas. Además, cada muestra de conjunto de datos constó de solo un solo turno, por lo que se necesitan más experimentos para comprobar la generalización de nuestros resultados de evaluación en escenarios de varios turnos (por ejemplo, una conversación de ida y vuelta que incluya las consultas del usuario y las respuestas del sistema). Los tipos de muestras que se usan en estos conjuntos de datos de evaluación también pueden afectar considerablemente a la tasa de coincidencia aproximada entre las etiquetas humanas y un anotador automatizado; si las muestras son más fáciles de etiquetar (por ejemplo, si todas las muestras están libres de riesgos de contenido), es posible que esperemos que la tasa de coincidencia aproximada sea mayor. La calidad de las etiquetas humanas para una evaluación también podría afectar a la generalización de nuestros hallazgos.

Evaluación e integración de evaluaciones de seguridad de Azure AI Foundry para su uso

La medición y evaluación de la aplicación de IA generativa son una parte fundamental de un enfoque holístico para la administración de riesgos de IA. Las evaluaciones de seguridad de Azure AI Foundry son complementarias y deben usarse junto con otras prácticas de gestión de riesgos de IA. Los expertos en dominio y los revisores del método human-in-the-loop deben proporcionar una supervisión adecuada al usar evaluaciones de seguridad asistidas por IA en el diseño, el desarrollo y el ciclo de implementación de aplicaciones de IA generativa. Debe comprender las limitaciones y los usos previstos de las evaluaciones de seguridad, teniendo cuidado de no confiar en los resultados generados por las evaluaciones de seguridad asistidas por IA de Azure AI Foundry de forma aislada.

Debido a la naturaleza no determinista de los LLM, es posible que experimente resultados falsos negativos o positivos, como un alto nivel de gravedad de contenido violento calificado como "muy bajo" o "bajo". Además, los resultados de la evaluación pueden tener significados diferentes para audiencias diferentes. Por ejemplo, las evaluaciones de seguridad podrían generar una etiqueta para la gravedad "baja" del contenido violento que podría no coincidir con la definición de un revisor humano de qué tan grave podría ser ese contenido violento específico. En el portal de Azure AI Foundry, proporcionamos una columna de comentarios humanos con pulgares hacia arriba y pulgares hacia abajo al ver los resultados de su evaluación para mostrar qué instancias fueron aprobadas o marcadas como incorrectas por un revisor humano. Considere el contexto de cómo los resultados pueden interpretarse para la toma de decisiones por parte de otros usuarios con los que puede compartir la evaluación y validar los resultados de la evaluación con el nivel de análisis adecuado para el nivel de riesgo en el entorno en el que opera cada aplicación de IA generativa.

Compartir vía