AI-jailbreaking
En AI-jailbreak är en teknik som kan orsaka fel på skyddsräcken (åtgärder). Den resulterande skadan kommer från det skyddsräcke som kringgicks: till exempel att systemet bryter mot sina operatörers principer, fattar beslut som påverkas otillbörligt av en användare eller kör skadliga instruktioner. Den här tekniken är associerad med angreppstekniker som snabbinmatning, undandragande och modellmanipulering.
Ett exempel på en jailbreak skulle vara när en angripare ber en AI-assistent att ge information om hur man bygger en molotovcocktail (brandbomb). Eftersom dessa objekt beskrivs i många historieböcker är den här informationen inbyggd i de flesta av de generativa AI-modeller som finns tillgängliga idag. Men eftersom inget företag som tillhandahåller AI-tjänster vill tillhandahålla vapenrecept, är de konfigurerade för att förhindra att den här informationen tillhandahålls till användaren via filter och andra tekniker för att neka denna begäran.
De två grundläggande familjerna av jailbreak beror på vem som gör dem:
- En direkt snabb injektionsattack (även känd som en "klassisk" jailbreak) inträffar när en auktoriserad operatör av systemet skapar jailbreak-indata för att utöka sina egna krafter över systemet.
- En indirekt promptinmatning inträffar när en attack inte är direkt i prompten, men ingår i innehåll som användaren refererade till när de skapade sin uppmaning.
Det finns en mängd kända jailbreak-liknande attacker. Vissa av dem (som DAN) fungerar genom att lägga till instruktioner till en enskild användares indata, medan andra (som Crescendo) agerar över flera svängar och gradvis flyttar konversationen till ett visst slut. Jailbreaks kan använda mycket "mänskliga" tekniker som socialpsykologi. Till exempel: att sötprata systemet till att kringgå skyddsåtgärder. En annan metod är att mata in strängar utan uppenbar mänsklig betydelse som ändå kan förvirra AI-system. Jailbreaks är som en grupp av metoder där skyddsräcken kringgås av en lämpligt utformad indata.
Den animerade bilden är ett exempel på ett crescendoangrepp. I stället för att direkt be LLM-modellen att bryta sina skyddsräcken i en prompt, skapar angriparen ett antal uppmaningar som stegvis förvirrar LLM till att bryta sina skyddsräcken.
Jailbreaking-attacker minimeras av Microsofts säkerhetsfilter. AI-modeller är dock fortfarande känsliga för det. Många varianter av dessa försök identifieras regelbundet och testas och minimeras sedan.
Skyddsräcken måste uppdateras när nya tekniker i AI-området upptäcks.