Las tres categorías de formación de equipos rojos de IA
A través del proceso de realización de la formación de equipos rojos de IA en las máquinas virtuales y las aplicaciones habilitadas para IA que usa la organización, Microsoft ha desarrollado tres categorías diferentes, tipos de términos, para describir diferentes tipos de formación de equipos rojos de IA. Estos tipos son:
- Formación de equipos rojo de pila completa
- Aprendizaje automático adversario
- Inyección de mensajes
En el diagrama se proporciona información general de estos tres tipos:
Formación de equipos rojo de pila completa
La formación de equipos rojo de pila completa implica el sondeo de daños de seguridad en todo el sistema de inteligencia artificial, con un enfoque en el análisis de toda la pila tecnológica. Esto incluye realizar pruebas en el entorno del desarrollador hasta la infraestructura de hospedaje. La metodología de formación de equipos rojas de pila completa incluye la evaluación de vulnerabilidades y posibles vectores de ataque, como la identificación de puntos débiles en las canalizaciones de datos, las API y las configuraciones de implementación.
Aprendizaje automático adversario
El aprendizaje automático adversario (AML) está dedicado a estudiar los ataques del modelo de aprendizaje automático para identificar puntos débiles y defenderse contra entradas malintencionadas. AML enfatiza la evaluación de vulnerabilidades y emplea tácticas como ataques de caja negra, donde los modelos se manipulan sin acceso a su código y ataques de caja blanca, donde los modelos se controlan con acceso a su código. Un ejemplo de su aplicación es realizar pequeñas modificaciones en las señales de carretera para engañar a los modelos de ML de los vehículos autocontrolados.
Inyección de mensajes
La inyección de mensajes tiene como objetivo aprovechar las LLM mediante la inserción cuidadosa de mensajes diseñados. Este enfoque se centra en la manipulación de sistemas de inteligencia artificial generativa en la pérdida de datos confidenciales o la propagación de información incorrecta. Por ejemplo, la elaboración de una solicitud de forma que LLM emita información confidencial de la empresa. Un desafío importante es distinguir entre las instrucciones de desarrollador y las entradas de usuario, un ejemplo de esto es engañar a Bing Chat para divulgar su programación solo a través de preguntas a través de las indicaciones.