AI-modellmanipulering
Modellmanipulering sker under modellträningsfasen. De två primära sårbarhetstyperna i den här kategorin är modellförgiftning och dataförgiftning.
Modellförgiftning
Modellförgiftning är möjligheten att förgifta den tränade modellen genom att manipulera modellarkitekturen, träningskoden eller hyperparametrar. Exempel på modellförgiftningsattacker är:
Tillgänglighetsattacker: Dessa syftar till att mata in så mycket dåliga data i systemet att modellens inlärda gräns blir värdelös. Detta kan leda till en betydande minskning av noggrannheten, även under starka försvar.
Integritetsattacker (bakdörr) : Dessa avancerade attacker gör att klassificeraren fungerar normalt men introducerar en bakdörr. Med den här bakdörren kan angriparen manipulera modellens beteende för specifika indata, vilket kan leda till läckage av privat information eller systemuppdelning.
Adversarial Åtkomstnivåer: Effektiviteten av förgiftningsattacker beror på nivån av kontradiktorisk åtkomst, allt från de flesta till minst farliga. Angripare kan använda strategier som att öka skadliga uppdateringar eller ändra minimering för att upprätthålla stealth och förbättra angreppsframgången.
Dataförgiftning
Dataförgiftning liknar modellförgiftning, men innebär att ändra de data som modellen tränas på och/eller testas på innan träningen äger rum.
Detta inträffar när en angripare avsiktligt matar in felaktiga data i en AI- eller maskininlärningsmodells träningspool. Målet är att manipulera modellens beteende under beslutsprocesser.
Fyra exempel på dataförgiftning är:
- Bakdörrsförgiftning
- Tillgänglighetsattacker
- Modellinversionsattacker
- Stealth-attacker
Bakdörrsförgiftning
I den här attacken matar en angripare in data i träningsuppsättningen med avsikten att skapa en dold säkerhetsrisk eller "bakdörr" i modellen. Modellen lär sig att förlita sig på den här bakdörren, som senare kan utnyttjas av angriparen för att manipulera dess beteende.
Anta till exempel att ett skräppostfilter har tränats på e-postdata. Om en angripare subtilt introducerar nyckelord för skräppost i legitima e-postmeddelanden under träningen kan filtret oavsiktligt klassificera framtida skräppostmeddelanden som innehåller dessa nyckelord som legitima.
Tillgänglighetsattacker
Tillgänglighetsattacker syftar till att störa tillgängligheten för ett system genom att förorena dess data under träningen. Till exempel:
- Ett autonomt fordons träningsdata innehåller bilder av vägskyltar. En angripare kan mata in vilseledande eller ändrade vägskyltsbilder, vilket gör att fordonet misstolkar verkliga skyltar under distributionen.
- Chattrobotar som tränats på kundinteraktioner kan lära sig olämpligt språk om förgiftade data som innehåller fantasifulla expletives introduceras. Detta kan leda till att chattroboten ger svar som är olämpliga.
Modellinversionsattacker
Modellinversionsattacker utnyttjar modellens utdata för att härleda känslig information om träningsdata. Till exempel tränas en ansiktsigenkänningsmodell på en datauppsättning som innehåller både kändisar och privatpersoner. En angripare kan använda modellutdata för att rekonstruera privatpersoners ansikten, vilket bryter mot integriteten.
Stealth-attacker
Smygande förgiftningstekniker syftar till att undvika upptäckt under träning. Angripare ändrar subtilt en liten del av träningsdata för att undvika att utlösa larm. Om du till exempel ändrar några bildpunkter i bilder av handskrivna siffror under träningen kan det leda till att en modell för sifferigenkänning felklassificerar specifika siffror.
Modellmanipuleringsattacker kan minimeras av flera säkerhetskontroller:
- För att skydda AI-modellen från att förgiftas med oseriösa data uppnås detta genom att begränsa åtkomsten till själva modellen via identitets-, nätverks- och datasäkerhetskontroller.
- Förhindra att en AI-modells träningsdata manipuleras genom att begränsa åtkomsten till data, återigen med hjälp av identitets-, nätverks- och datasäkerhetskontroller.
- Identifiera modellinversionsattacker med utgående innehållsfilter.