Sdílet prostřednictvím


Pivoty AI/ML pro panel chyby Security Development Lifecycle

Andrew Marshall, Jugal Parikh, Emre Kiciman a Ram Shankar Siva Kumar

Listopad 2019

Tento článek je součástí pracovní skupiny Microsoft AETHER Engineering Practices for AI. Tento článek funguje jako doplněk k existujícímu panelu chyb SDL, který slouží ke třídění tradičních ohrožení zabezpečení. Účelem je použít jako referenci pro třídění problémů se zabezpečením souvisejících s AI/ML. Klasifikace závažnosti ohrožení zabezpečení pro systémy AI (publikovaná službou Microsoft Security Response Center) definuje běžné typy ohrožení zabezpečení a úrovně závažnosti pro systémy zahrnující AI.

Tyto pokyny jsou uspořádané kolem taxonomie nežádoucích hrozeb strojového učení, kterou vytvořil Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen a Jeffrey Snover a s názvem Režimy selhání ve službě Machine Learning. Zatímco výzkum tohoto obsahu je založený na řešení záměrného nebo škodlivého i náhodného chování v režimech selhání ML, tento doplněk panelu chyb se zaměřuje výhradně na úmyslné/škodlivé chování, které by vedlo k incidentu zabezpečení nebo nasazení opravy.

Hrozba Popis, obchodní rizika, příklady
Útok falešnými záznamy na data

Poškození trénovacích dat – konečným cílem útočníka je kontaminovat model počítače vygenerovaný ve fázi trénování, aby byly předpovědi na nových datech upraveny ve fázi testování.

Při cílených útocích falešnými záznamy chce útočník nesprávně klasifikovat konkrétní příklady a tím způsobit provedení nebo vynechání konkrétních akcí.

Odeslání antivirového softwaru jako malwaru, vynucení jeho chybné klasifikace jako škodlivého softwaru a zabránění použití cílového antivirového softwaru v klientských systémech

Společnost scrapuje z dobře známého a důvěryhodného webu data o futures kontraktech pro trénování vlastních modelů. Web poskytovatele dat je pak napaden útokem prostřednictvím injektáže SQL. Útočník může datovou sadu vytrénovat a trénovaný model nemá žádnou představu o tom, že data jsou tainted.

Krádež modelu

Opětovné vytvoření základního modelu prostřednictvím jeho legitimního dotazování. Funkce nového modelu jsou stejné jako funkce základního modelu. Po opětovném vytvoření modelu je možné jeho invertováním získat informace o funkcích a odvozovat závěry z trénovacích dat.

Řešení rovnic – V případě modelu, který prostřednictvím výstupu rozhraní API vrací pravděpodobnosti tříd, může útočník sestavit dotazy, kterými zjistí neznámé proměnné v modelu.

Hledání cest – útok, který využívá specifika rozhraní API k extrahování "rozhodnutí" přijatých stromem při klasifikaci vstupu.

Útok na přenosnost – Nežádoucí osoba může natrénovat místní model, například odesíláním dotazů předpovědí do cílového modelu, a pomocí něj sestavit nežádoucí příklady, které se přenesou do cílového modelu. Pokud útočník extrahuje kopii vašeho modelu a zjistí, že je zranitelný vůči určitému typu nežádoucího vstupu, může vyvíjet nové útoky na váš model nasazený v produkčním prostředí zcela offline.

V prostředích, kde model strojového učení slouží k detekci nežádoucího chování, jako je identifikace spamu, klasifikace malwaru nebo detekce síťových anomálií, může extrakce modelu usnadnit útoky spočívající ve vyhýbání se obraně.

Inverze modelu

Může dojít k získání privátních funkcí použitých v modelech strojového učení. To zahrnuje rekonstrukci privátních trénovacích dat, ke kterým útočník nemá přístup. Toho se dosáhne nalezením vstupu, který maximalizuje vrácenou úroveň spolehlivosti v závislosti na klasifikaci odpovídající cíli.

Příklad: Rekonstrukce dat rozpoznávání obličeje z odhadovaných nebo známých názvů a přístupu rozhraní API k dotazování modelu.

Nežádoucí příklad ve fyzickém světě Tyto příklady se můžou projevit ve fyzické doméně, jako je auto v samojezdu, které se oklamalo do spuštění znaménka stopy kvůli určité barvě světla (nežádoucí vstup) a vynucení systému rozpoznávání obrazu, aby se značka stop přestala zobrazovat jako značka zastavení.
Útok na dodavatelský řetězec strojového učení

Vzhledem k velkým prostředkům (datům a výpočtům) potřebným k trénování algoritmů je aktuálním postupem opětovné použití modelů natrénovaných velkými společnostmi a jejich úpravou po ruce pro úkoly (např. ResNet je oblíbený model rozpoznávání obrázků od Microsoftu).

Tyto modely se spravují v Model Zoo (Caffe hostuje oblíbené modely rozpoznávání obrazu).

Při tomto útoku nežádoucí osoba útočí na modely hostované v Caffe a tím poškozuje zdroj pro všechny ostatní.

Algoritmus implementovaný zadními vrátky od poskytovatele strojového učení se zlými úmysly

Ohrožení zabezpečení základního algoritmu.

Poskytovatel strojového učení jako služby se zlými úmysly zadními vrátky implementuje algoritmus, kterým získá privátní trénovací data. Útočník tak může pouze na základě modelu rekonstruovat citlivá data, jako jsou obličeje nebo texty.

Přeprogramování neuronové sítě

Pomocí speciálně vytvořeného dotazu od útočníka je možné přeprogramovat systémy ML na úkol, který se liší od původního záměru autora.

Slabé řízení přístupu k rozhraní API pro rozpoznávání obličeje umožňující třetím stranám začlenit aplikace s cílem poškodit uživatele, jako je například generátor tzv. deep fakes (realistické fotomontáže a videomontáže).

Jedná se o scénář zneužití nebo deaktivace účtu.

Nežádoucí perturbace

Při útocích ve stylu perturbace útočník nepozorovaně upraví dotaz tak, aby z modelu nasazeného v produkčním prostředí získal požadovanou odpověď. Jedná se o porušení integrity vstupu modelu, což vede k útokům ve stylu přibližných shod, kdy konečným výsledkem nemusí být nutně porušení přístupu nebo EOP. Místo toho ohrožuje výkon klasifikace modelu.

To se dá projevit trolly, kteří používají určitá cílová slova způsobem, kterým je AI zakáže a účinně zamítá službu legitimním uživatelům s názvem, který odpovídá "zakázanému" slovu.

Vynucení klasifikace neškodných e-mailů jako spamu nebo zajištění neodhalení škodlivého příkladu. Tyto útoky se označují také jako útoky spočívající ve vyhýbání se modelu nebo v napodobování.

Útočník může sestavit vstupy tak, aby snížil úroveň spolehlivosti správné klasifikace, a to zejména ve vysoce rizikových scénářích. Tento typ útoku může mít také podobu velkého množství falešně pozitivních výsledků, které mají zahltit správce nebo monitorovací systémy podvodnými upozornění, která jsou k nerozeznání od legitimních upozornění.

Odvození členství

Odvození členství jednotlivce ve skupině sloužící k trénování modelu.

Příklad: Předpověď chirurgických zákroků na základě věku, pohlaví a nemocnice.