Udostępnij za pośrednictwem


Ocena ryzyka sztucznej inteligencji dla inżynierów uczenia maszynowego

Pomimo atrakcyjnych powodów zabezpieczania systemów uczenia maszynowego, badanie firmy Microsoft obejmujące 28 firm wykazało, że większość praktyków branżowych nie pogodziła się jeszcze z niepożądanym uczeniem maszynowym (ML). Dwadzieścia pięć z 28 firm wskazało, że nie mają odpowiednich narzędzi, aby zabezpieczyć swoje systemy uczenia maszynowego. Co więcej, jawnie szukają wskazówek. Odkryliśmy, że brak przygotowań nie jest ograniczony do mniejszych organizacji — wahają się od firm z listy Fortune 500, rządów po organizacje non-profit. Klienci uznają potrzebę zabezpieczenia systemów sztucznej inteligencji, ale po prostu nie wiedzą, jak.

Ten dokument jest pierwszym krokiem dla organizacji w celu oceny stanu zabezpieczeń systemów sztucznej inteligencji. Jednak zamiast dodawać kolejną strukturę do naśladowania dla organizacji, próbowaliśmy udostępnić zawartość w sposób, który można przyciągnął do istniejących tradycyjnych struktur oceny ryzyka zabezpieczeń.

Ten dokument ma trzy cele:

  • Zapewnienie kompleksowej perspektywy zabezpieczeń systemu sztucznej inteligencji. Przyjrzeliśmy się każdemu elementowi cyklu życia systemu sztucznej inteligencji w ustawieniu produkcyjnym: od zbierania danych, przetwarzania danych po wdrożenie modelu. Uwzględniliśmy również łańcuch dostaw sztucznej inteligencji oraz mechanizmy kontroli i zasad w odniesieniu do tworzenia kopii zapasowych, odzyskiwania i planowania awaryjnego związanych z systemami sztucznej inteligencji.
  • Przedstawienie zagrożeń dla krytycznych zasobów sztucznej inteligencji i wskazówek dotyczących ich zabezpieczenia. Aby bezpośrednio pomóc inżynierom i specjalistom ds. zabezpieczeń, wyliczyliśmy instrukcję zagrożenia na każdym etapie procesu tworzenia systemu sztucznej inteligencji. Następnie udostępniamy zestaw wytycznych, które nakładają i wzmacniają istniejące rozwiązania w kontekście systemów sztucznej inteligencji.
  • Umożliwianie organizacjom przeprowadzania ocen ryzyka związanego z zabezpieczeniami sztucznej inteligencji. Platforma pomaga zebrać informacje o bieżącym stanie zabezpieczeń systemów sztucznej inteligencji w organizacji, przeprowadzić analizę luk i śledzić postęp stanu zabezpieczeń.

Sformułowaliśmy ją razem z uczestnikami projektu w całej firmie Microsoft, przedstawicielami ds. zabezpieczeń platformy Azure, strategii odpowiedzialnej sztucznej inteligencji w zakresie inżynierii, centrum zabezpieczeń zabezpieczeń firmy Microsoft, zabezpieczeń platformy Azure i sztucznej inteligencji, etyki i efektów w inżynierii i badaniach (Aether).

Wprowadzenie

Zalecamy użycie tego dokumentu, aby rozpocząć dyskusję na temat zabezpieczania systemów sztucznej inteligencji dostosowanych do podejmowanych działań związanych z bezpieczeństwem informacji i celów biznesowych. Dokument koncentruje się na systemach sztucznej inteligencji i włączeniu tradycyjnych mechanizmów kontroli, ponieważ systemy sztucznej inteligencji są oparte na tradycyjnej infrastrukturze IT.

Omówimy następujące obszary związane z systemami sztucznej inteligencji.

Środki administracyjne opis
Zasady zabezpieczeń uczenia maszynowego Kontroluje i zasady dotyczące udokumentowanych zasad, które zarządzają uczeniem maszynowym, sztuczną inteligencją i zabezpieczeniami informacji.
Kontrole techniczne opis
Zbieranie danych Kontroluje i zasady związane z kolekcją, magazynem i klasyfikacją danych używanych do uczenia maszynowego i sztucznej inteligencji.
Przetwarzanie danych Mechanizmy kontroli i zasad odnoszących się do przetwarzania i inżynierii danych używanych do uczenia maszynowego i sztucznej inteligencji.
Trenowanie modelu Kontrolki i zasady dotyczące projektowania, trenowania i walidacji modeli.
Wdrażanie modelu Mechanizmy kontroli i zasady dotyczące wdrażania modeli i infrastruktury pomocniczej.
Monitorowanie systemu Mechanizmy kontroli i zasady dotyczące ciągłego monitorowania systemów uczenia maszynowego.
Zarządzania zdarzeniami Mechanizmy kontroli i zasady dotyczące sposobu obsługi zdarzeń związanych z systemem sztucznej inteligencji.
Ciągłość działania i odzyskiwanie po awarii Mechanizmy kontroli i zasad odnoszących się do utraty własności intelektualnej za pośrednictwem kradzieży modelu, degradacji usługi lub innych luk w zabezpieczeniach specyficznych dla sztucznej inteligencji.

Zaadaptowaliśmy istniejącą strukturę mechanizmów kontroli i zasad z popularnego standardu ISO27001:2013 i zamapowaliśmy ją w procesie tworzenia systemu sztucznej inteligencji — od fazy zbierania danych po reagowanie na zagrożenia dla systemów sztucznej inteligencji. Organizacje mogą mieć niektóre lub wszystkie istniejące mechanizmy kontroli wdrożone z ISO27001:2013 lub są już zgodne z kilkoma strukturami ryzyka (NIST 800-53, PCI-DSS, FedRamp itp.) w ramach istniejących wysiłków związanych z bezpieczeństwem informacji.

Brak odpowiedniego zabezpieczenia systemów sztucznej inteligencji zwiększa ryzyko nie tylko systemów sztucznej inteligencji rozwiązanych w tej ocenie, ale ogólniej dla całej technologii informatycznej i środowiska zgodności.

Celem tego dokumentu nie jest zastąpienie żadnego z tych istniejących wysiłków , ale opisem zabezpieczania systemów sztucznej inteligencji z punktu widzenia istniejących narzędzi i struktur oraz rozszerzania go na wszystkie części procesu tworzenia sztucznej inteligencji.

Wymienione tutaj wskazówki nie są normatywne, ponieważ wymagałoby to większej liczby kontekstów, takich jak platforma bazowa, podstawowy typ danych i wybór algorytmu. Jeśli jesteś klientem usługi Azure Machine Edukacja, zapoznaj się z artykułem Enterprise Security and governance (Zabezpieczenia i ład w przedsiębiorstwie).

Sugerowana ważność, prawdopodobieństwo, wpływ

Nie wszystkie mechanizmy kontroli mają kluczowe znaczenie dla bezpieczeństwa systemu sztucznej inteligencji. W związku z tym, aby właściwie określić priorytety pracy, każda kontrolka powinna być oceniana przez organizację z oceną ważności, która ma znaczenie dla wpływu biznesowego nie implementowania danej kontroli. Organizacja może zaakceptować ryzyko krytycznej kontroli, a zamiast tego wdrożyć kontrolę wyrównywującą, aby zmniejszyć ryzyko. Ostatecznie oceny te mają pomóc w prowadzeniu podejmowania decyzji opartych na ryzyku, a nie przepisywania działań.

Ważność

Ważność naruszenia będzie zależeć od przypadku użycia modelu AI. Na szczęście jeśli używane dane lub systemy były krytyczne przed zintegrowaniem uczenia maszynowego, powinny pozostać takie same. Podobnie, jeśli używany model jest "poza półką" bez innych danych wejściowych, w zależności od kontekstu, w których jest używany model, ważność naruszenia prawdopodobnie jest niższa. Techniki, takie jak prywatność różnicowa, mogą zmniejszyć potencjalny wpływ naruszenia zabezpieczeń. Jednak ten kontekst nie zmniejszy krytycznego poziomu systemu, danych ani modelu. Zalecamy ochronę modeli przy użyciu strategii ochrony w głębi systemu, a nie polegania na jednej implementacji defensywnej.

Sugerowany poziom ważności

Sugerowane jako krytyczne

  • Jeśli model sztucznej inteligencji jest przeszkolony lub pozyska poufne dane osobowe, dane sklasyfikowane lub dane objęte wymaganiami dotyczącymi zgodności, takimi jak PCI, HIPAA, GLBA itp.
  • Jeśli model sztucznej inteligencji jest używany w aplikacji lub systemie o znaczeniu krytycznym dla działania firmy, tak aby naruszenie zabezpieczeń miało duży negatywny wpływ na operacje biznesowe
  • Jeśli model sztucznej inteligencji jest używany w aplikacjach, w których wyniki fizyczne lub szkody lub śmierci są możliwe
  • Jeśli model sztucznej inteligencji jest używany w systemie obsługującym infrastrukturę krytyczną (na przykład wodę, energię, kondycję)

Sugerowane jako wysokie

  • Jeśli model sztucznej inteligencji został wytrenowany lub pozyska poufne dane osobowe, poufne informacje lub dane, które są w inny sposób uznawane za krytyczne przez organizację
  • W przypadku naruszenia bezpieczeństwa tego modelu sztucznej inteligencji miałoby duży, ale zakresowy wpływ na operacje biznesowe
  • Jeśli model sztucznej inteligencji jest używany w aplikacjach lub systemach o znaczeniu krytycznym dla działania firmy

Sugerowane jako średnie

  • Jeśli model sztucznej inteligencji jest trenowany w podzestawie danych treningowych zawierających poufne typy danych
  • Naruszenie tego modelu sztucznej inteligencji miałoby wpływ na modele wdrożone w środowisku produkcyjnym
  • Jeśli model AI jest używany w aplikacjach niekrytycznych, ale biznesowych
  • Jeśli model sztucznej inteligencji nie jest używany w środowisku produkcyjnym, ale zawiera informacje dotyczące modeli produkcyjnych

Sugerowane jako niskie

  • Jeśli model sztucznej inteligencji jest trenowany na danych, które nie są używane w środowisku produkcyjnym
  • Jeśli model sztucznej inteligencji nie jest używany w środowisku produkcyjnym i nie zawiera informacji dotyczących modeli produkcyjnych

Sugerowane jako informacyjne

  • Jeśli dane są niesklasyfikowane ze zweryfikowanego źródła
  • Jeśli model AI nie jest używany w środowisku produkcyjnym

Prawdopodobieństwo

Prawdopodobieństwo ma dwa główne składniki, dostępność modelu i dostępność technik. Aby zmniejszyć prawdopodobieństwo ataku, organizacja powinna zaimplementować mechanizmy kontroli, które:

  1. Usuń powierzchnię ataku lub utrudnij wyliczanie powierzchni ataku.
  2. Upewnij się, że rejestrowanie i alerty działają zgodnie z założeniami, aby zapewnić szybkie rozwiązywanie problemów.
  3. Upewnij się, że wszystkie systemy pomocnicze są aktualne z wymaganiami dotyczącymi zabezpieczeń.

Kontrolki mogą obejmować punkty końcowe gating, segmentację sieci lub ograniczanie szybkości. Szczególną uwagę należy zwrócić na przepływy ruchu i diagramy sieci lub potoków, na przykład naruszenie przez atakujący i zewnętrzny punkt końcowy oraz działanie wstecz przez potok.

Wpływ

Wpływ jest związany z wpływem na organizację. Sugerujemy, aby rozpocząć zapoznanie się z różnymi sposobami atakowania systemów uczenia maszynowego i rozważenie sposobów, w jaki modele produkcyjne mogą mieć wpływ na organizację. Aby uzyskać więcej informacji, zobacz artykuł Tryby błędów w Edukacja maszyny. Po wykonaniu tej znajomości można ją zamapować na macierz ważności.

Macierz ważności

Poniższa tabela to podstawowa macierz ważności ryzyka i luk w zabezpieczeniach umożliwiająca rozpoczęcie pracy organizacji. Sugerujemy wypełnienie podobnej kategoryzacji przez połączenie architektów zabezpieczeń, inżynierów uczenia maszynowego i czerwonych członków zespołu sztucznej inteligencji.

Typ ataku Prawdopodobieństwo Wpływ Możliwość wykorzystania
Ekstrakcji Wys. Niskie Wysokie
Evasion Wys. Śred. Wys.
Wnioskowanie Śred. Śred. Śred.
Inwersji Śred. Wys. Śred.
Zatrucia Niskie Wysokie Niski

"Projektowanie i opracowywanie bezpiecznej sztucznej inteligencji jest podstawą opracowywania produktów sztucznej inteligencji w firmie BCG. Ponieważ społeczna potrzeba zabezpieczenia naszych systemów sztucznej inteligencji staje się coraz bardziej widoczna, zasoby takie jak struktura zarządzania ryzykiem bezpieczeństwa sztucznej inteligencji firmy Microsoft mogą być podstawowymi wkładami. Wdrożyliśmy już najlepsze rozwiązania w tej strukturze w systemach sztucznej inteligencji, które opracowujemy dla naszych klientów i cieszymy się, że firma Microsoft opracowała i opracowała tę platformę jako open source z korzyścią dla całej branży". — Jack Molloy, starszy inżynier ds. zabezpieczeń, Boston Consulting Group

Podstawowe użycie

Pozostała część dokumentu jest zgodna z tą strukturą:

  • Kontrola ryzyka zawiera opis obszaru objętego kontrolą.
  • Cel kontroli i to, co ma osiągnąć.
  • Oświadczenie o zagrożeniu, które zawiera opis ryzyka, który jest ograniczany.
  • Wskazówki dotyczące implementowania kontrolki. Rozumiemy, że nie wszystkie wskazówki można wdrożyć z uzasadnionych powodów biznesowych. Sugerujemy dokumentowanie wskazówek, których nie można zaimplementować.

Poniższa tabela to kontrola pobrana z oceny ryzyka systemów sztucznej inteligencji. Uwagi są dodawane w celu opisania każdej części struktury kategorii ryzyka.

Przykładowa kontrolka

Jak go przeczytać

1. Zbieranie danych

Kategoria podstawowa

Kontroluje i zasady dotyczące zbierania i przechowywania danych ze wszystkich źródeł używanych do uczenia maszynowego i sztucznej inteligencji.

Opisuje, które kontrolki w tej kategorii obejmują na wysokim poziomie.

2. Źródła danych

Kategoria kontrolki

Cel: Aby zapewnić integralność zebranych danych, które są używane dla wytrenowanych modeli.

Należy opisać ryzyko, które jest ograniczane za pomocą mechanizmów kontroli.

Oświadczenie o zagrożeniach: dane są zbierane z niezaufanych źródeł, które mogą zawierać poufne dane osobowe, inne niepożądane dane, które mogą mieć wpływ na bezpieczeństwo modelu lub stanowią zagrożenie dla zgodności z organizacją.

Instrukcja opisując wynik braku implementacji kontrolki.

Kontrola: dane powinny być zbierane z zaufanych źródeł. Lista zaufanych źródeł powinna być przechowywana i aktualizowana. Zatwierdzenia do zbierania niezaufanych danych należy rozważyć w zależności od przypadku.

Konkretne czasowniki opisujące najlepsze rozwiązanie dla kontrolki.

Wskazówki:

  1. Należy starać się zapewnić, że dane mogą być zaufane przed rozpoczęciem trenowania modelu. Niezaufane lub nieznane dane mogą powodować luki w zabezpieczeniach w dalszej części potoku.
  2. Dane zawierające poufne dane osobowe, niezależnie od tego, czy są używane do celów nauki o danych, czy też w inny sposób powinny być czyszczone lub przechowywane i odpowiednio uzyskiwać dostęp.
  3. Zbieranie danych bez uwzględnienia ich kontekstu może spowodować, że zestawy danych zawierające niedozwolone dane. Wysiłki związane z zbieraniem danych powinny być świadome materiałów chronionych prawami autorskimi, naruszeń danych, niezabezpieczonych punktów końcowych, które przypadkowo wyciekają dane.

Wskazówki to zalecenia dotyczące spełnienia powyższych kryteriów. Udostępniamy je w sposób niezależny od produktu i dostawcy, aby dać organizacjom miejsce na rozwiązanie problemu w sposób, który ma sens dla nich.

Ocena zabezpieczeń uczenia maszynowego

Przed rozpoczęciem pracy

Celem tej oceny jest pomoc organizacjom w wyrażaniu, śledzeniu i korygowaniu ryzyka związanego z operacjami biznesowymi wprowadzonymi przez systemy sztucznej inteligencji. Ta ocena powinna służyć do:

  1. Zbierz informacje o bieżącym stanie zabezpieczeń sztucznej inteligencji w organizacji.
  2. Wykonaj analizę luk i utwórz plan wdrożenia zaleceń.
  3. Śledź postęp zabezpieczeń, wykonując tę ocenę co roku lub co rok.

Jeśli organizacja nie ma programu zabezpieczeń, ta ocena nie jest miejscem do rozpoczęcia. Organizacja powinna mieć działający program zabezpieczeń informacji przed wdrożeniem zaleceń w tej ocenie. Aby uzyskać więcej informacji, zobacz artykuł Wskazówki dotyczące zabezpieczeń platformy Azure w przewodniku Cloud Adoption Framework.

Zbieranie danych

Kontroluje i zasady dotyczące zbierania i przechowywania danych ze wszystkich źródeł używanych do uczenia maszynowego i sztucznej inteligencji.

Cel: Zapewnienie integralności zebranych danych używanych w systemach sztucznej inteligencji.

Źródła danych

Kontrola: dane powinny być zbierane z zaufanych źródeł. Lista zaufanych źródeł powinna być przechowywana i aktualizowana. Zatwierdzenia zarządzania dotyczące zbierania niezaufanych danych powinny być brane pod uwagę na podstawie przypadków. Jeśli niezaufane źródło jest zatwierdzone, powinno być udokumentowane.

Oświadczenie o zagrożeniu: dane są zbierane z niezaufanych źródeł, które mogą zawierać poufne dane osobowe, inne niepożądane dane, które mogą mieć wpływ na wydajność modelu lub stanowią zagrożenie dla zgodności z organizacją.

Wskazówki:

  1. Dane wejściowe powinny być weryfikowane i zaufane za pośrednictwem zatwierdzenia zarządzania przed użyciem w systemie sztucznej inteligencji.
  2. Dane zebrane dla systemu sztucznej inteligencji powinny być przeglądane przed użyciem lub magazynem.
  3. W razie potrzeby zebrane dane powinny zostać oczyszczone z niepożądanych wpisów.
  4. Źródło danych powinno być udokumentowane i przechowywane w danych.
  5. Dane wnioskowania używane do trenowania modelu nie powinny być niejawnie zaufane i powinny być traktowane jako nowe dane.
  6. Wysiłki związane z zbieraniem danych powinny być udokumentowane i poddane inspekcji. Zebrane dane powinny mieć właściciela, który jest odpowiedzialny za przestrzeganie udokumentowanych zasad.

Typy danych poufnych

Kontrola: Aby zapewnić, że przechowywane dane dla systemów sztucznej inteligencji są prawidłowo zabezpieczone, śledzone i sklasyfikowane zgodnie z jego poufnością i przypadkiem użycia. Ta kontrolka obejmuje odpowiednie etykiety klasyfikacji danych, zasady dostępu, informacje o licencji, statystyki opisowe, źródło źródłowe i datę kolekcji.

Instrukcja zagrożenia: dane używane w systemach sztucznej inteligencji są używane, przechowywane lub używane niewłaściwie ze względu na brak wymaganych atrybutów, metadanych lub dokumentacji.

Wskazówki:

  1. Opracuj zasady dotyczące danych obejmujące prywatność i ochronę poufnych typów danych oraz przekaż zasady wszystkim pracownikom zaangażowanym w korzystanie z systemów sztucznej inteligencji lub ich tworzenie.
  2. Zaimplementuj potoki trenowania i wdrażania, które chronią poufność i integralność danych używanych w systemach sztucznej inteligencji.

Magazyn danych

Kontrola: Dane powinny być odpowiednio przechowywane zgodnie z udokumentowanym procesem klasyfikacji. Zestawy danych powinny być indeksowane i uznawane za zasób, który podlega zasadom zarządzania zasobami i kontroli dostępu.

Oświadczenie o zagrożeniu: dane są przechowywane w sposób niezabezpieczony i mogą zostać naruszone lub zmienione przez nieautoryzowane strony lub systemy. Dane nie są poprawnie klasyfikowane, co prowadzi do ujawnienia poufnych informacji lub poufnych danych osobowych.

Wskazówki

  1. Upewnij się, że systemy badawcze lub konta związane ze sztuczną inteligencją nie mają dostępu do produkcyjnych baz danych i na odwrót.
  2. Dane używane w systemach sztucznej inteligencji powinny być klasyfikowane i chronione zgodnie z udokumentowanymi zasadami klasyfikacji.
  3. Dane używane w systemach sztucznej inteligencji są śledzone w udokumentowanych zasadach zarządzania zasobami.
  4. Dane używane w poufnych przypadkach użycia sztucznej inteligencji są przechowywane w zatwierdzonych i zarządzanych systemach.
  5. Dostęp do danych powinien zostać poddany inspekcji, a użytkownicy żądający dostępu powinni przejść przez formalny proces kontroli dostępu obejmujący zatwierdzenie zarządzania.
  6. Dane używane w procesach uczenia maszynowego nie powinny być uwidocznione w Internecie.
  7. Dane pobierane z Internetu (lub innych niezaufanych źródeł) powinny przechodzić przez proces filtrowania obejmujący zatwierdzenie zarządzania.
  8. Zestawy danych powinny być wersjonowane przy użyciu formalnych procesów kontroli zmian.

Dostęp do danych

Kontrola: Zestawy danych powinny być odpowiednio śledzone i weryfikowane za pośrednictwem skrótu kryptograficznego przed użyciem.

Instrukcja zagrożenia: zestawy danych są zmieniane bez autoryzacji.

Wskazówki:

  1. Należy wymusić kontrolę dostępu opartą na rolach dla zestawów danych.
  2. Przeprowadzanie regularnych inspekcji dostępu w celu zapewnienia, że konta z dostępem do zestawów danych powinny mieć dostęp do zestawów danych. Upewnij się, że każde konto działa w normalnych granicach.
  3. Jeśli nie jest używana centralna platforma śledzenia, należy przejrzeć dostęp do danych za pośrednictwem nieprzetworzonych dzienników dostępu. Upewnij się, że każde konto działa w normalnych granicach.
  4. Zewnętrzni dostawcy zasobów, wykonawcy lub inne podmioty zewnętrzne nie powinni mieć nadmiarowego ani nieodpowiedniego dostępu do zasobów danych trenowania/testowania firmy bez umów.

Integralność danych

Kontrola: Zestawy danych powinny być zaufane i pozostają zaufane w całym cyklu życia systemu sztucznej inteligencji.

Instrukcja zagrożenia: zestawy danych są zmieniane podczas cyklu życia sztucznej inteligencji bez możliwości przeprowadzania inspekcji lub śledzenia zmian.

Wskazówki:

  1. Zestawy danych powinny być jednoznacznie identyfikowane, tak aby nieautoryzowane zmiany zatwierdzonego zestawu danych powodowały przegląd zestawu danych.
  2. Zestawy danych i ich opisy kryptograficzne powinny być śledzone w centralnej lokalizacji. Należy przeprowadzić inspekcję dostępu do zestawu danych.
  3. Zmiany w zestawie danych powinny zawierać zaktualizowane opisy kryptograficzne i zatwierdzenie zarządzania przed przesłaniem do centralnej usługi śledzenia.

Przetwarzanie danych

Mechanizmy kontroli i zasady dotyczące przetwarzania danych używanych do uczenia maszynowego i sztucznej inteligencji.

Cel: Zapewnienie bezpiecznego przetwarzania danych z jego pierwotnej formy do pośredniczącego formularza gotowego do trenowania.

Przetwarzanie potoków

Kontrola: Potoki przetwarzania powinny być odpowiednio zabezpieczone.

Instrukcja zagrożenia: aktor zagrożeń może wprowadzać nieautoryzowane zmiany w systemie, zmieniając potoki przetwarzania danych.

Wskazówki:

  1. Nie wszystkie dane, które przechodzą przez system produkcyjny, są istotne dla wysiłków związanych z nauką o danych. Ważne jest, aby przeanalizować tylko wymagane dane i upewnić się, że wszystkie dane przeniesione z bezpiecznego ustawienia produkcyjnego do ustawienia programowania są odpowiednio śledzone. Należy wziąć pod uwagę, że niektóre typy danych mogą nie być w stanie zostać przeniesione do środowiska deweloperskiego. Nauka o danych może być konieczna w bezpiecznym środowisku pośredniczącym.
  2. Ważna jest właściwa inspekcja dostępu do danych w całym cyklu życia przetwarzania danych. Bez oddzielnych kont nie może być wystarczająca inspekcja dostępu. Ponadto możliwość reagowania na zdarzenie nie może wystąpić bez potencjalnie wpływu na procesy biznesowe. Naruszenie zabezpieczeń jednego konta spowodowałoby naruszenie bezpieczeństwa wszystkich danych opuszczających bezpieczne środowisko produkcyjne.
  3. Procesy nauki o danych mogą wymagać zasobów spoza ścisłej granicy zgodności.
  4. Procesy nauki o danych powinny być zawsze zgodne z istniejącymi wymaganiami. Ten proces może obejmować przenoszenie zasobów i procesów nauki o danych do zgodnego środowiska.
  5. Dane powinny być śledzone przez cały cykl życia; To śledzenie obejmuje podzestawy większych zestawów danych. Należy wymagać, aby model mógł zostać prześledżony z powrotem do danych, na których został wytrenowany. Ponadto kopia tych danych powinna istnieć w całości.

Przysłona zestawu danych

Kontrola: Aby zapewnić podzbiory (na przykład tymczasowe, podzielone na kategorie) dane zawarte w kompilowaniu modelu i jak mogą to stanowić zagrożenie bezpieczeństwa (wyciek prywatności, zatrucie/integralność za pośrednictwem nadmiernych informacji zwrotnych itp.).

Instrukcja zagrożenia: aktor zagrożeń może odzyskać części danych, rekonstruując/odzyskując podzestawy danych.

Wskazówki:

  1. Podzestawy danych to same zestawy danych. Te podzestawy są wymagane, aby były dołączone do nich te same metadane co nadrzędny zestaw danych i powinny być podobnie sprawdzane pod kątem typów danych poufnych.
  2. W zależności od zasad dotyczących praktyk uczenia maszynowego (umów SLA, metryk stronniczości itp.), każdy zestaw danych (w tym podzestawy) powinien spełniać minimalny udokumentowany standard otaczający te metryki, jeśli mają być używane w tworzeniu modelu. Metadane powinny być zawsze dołączone do zestawu danych.
  3. Wszystkie zestawy danych naruszające istniejące zasady powinny mieć udokumentowany wyjątek zatwierdzony przez zarządzanie. Uwzględniony w wyjątku powinien być udokumentowaną przyczyną wyjątku oprócz wymaganych metadanych.
  4. Wszystkie dane używane do tworzenia modelu powinny być śledzone w centralnej lokalizacji. Dane powinny być poddawane inspekcji w dowolnym momencie. Ponadto modele, które można wytrenować na nieśledzonych danych, powinny być ściągane z środowiska produkcyjnego, dopóki nie zostaną dopasowane do znanego zestawu danych z wymaganymi metadanymi.
  5. Zestawy danych powinny być odpowiednio wersjonowane, tak aby wszystkie metadane były aktualizowane, a użytkownicy danych zrozumieli zawartość i właściwości statystyczne. W razie potrzeby należy wymagać zatwierdzenia zarządzania dla poufnych przypadków użycia.

Trenowanie modelu

Mechanizmy kontroli i zasady dotyczące trenowania modeli i algorytmów.

Projekt modelu

Kontrola: Kod trenowania modelu jest przeglądany przez odpowiedzialną stronę.

Instrukcja zagrożenia: Niewłaściwy kod lub luki w zabezpieczeniach w kodzie modelu generują zagrożenia dotyczące dostępności, integralności lub poufności.

Wskazówki:

  1. Projekt modelu i badania powinny odbywać się w odpowiednim środowisku. Projektowanie i architektura modelu mogą mieć duży wpływ na skuteczność modelu. Środowiska produkcyjne nie są miejscem do badań ani do testowania nieprovable oświadczeń na temat skuteczności projektu.
  2. Wybór modelu dla systemu produkcyjnego należy przejrzeć i zatwierdzić przez zarządzanie. Ten proces powinien nastąpić na wczesnym etapie opracowywania i powinien być śledzony za pomocą dowolnego dostępnego mechanizmu (Excel, DevOps, Git itp.). Wyjątki powinny być udokumentowane.
  3. Modele są często specyficzne dla domeny i powinny istnieć odpowiednie dokumenty towarzyszące modelowi w całej organizacji.
  4. Upewnij się, że metadane modelu są dostępne dla użytkowników, a niezatwierdzone zastosowania modeli są udokumentowane i wymuszone. Użytkownik może dostosować istniejący model, tak długo, jak nowe metadane są dołączane i śledzone odpowiednio.

Trenowanie modelu

Kontrola: kryterium wyboru modelu (zestawy metryk i wstrzymania) naśladuje naturalny dryf i wszelkie niepożądane warunki, które mogą być oczekiwane w czasie wdrażania.

Instrukcja zagrożenia: model, który jest trenowany w idealnych warunkach, może być kruchy podczas wdrażania w ustawieniach niepożądanych.

Wskazówki

  1. Zestawy trenowania i walidacji powinny uwzględniać naturalne zależności czasowe. Na przykład w przypadku klasyfikatorów złośliwego oprogramowania zestaw weryfikacji powinien zawierać tylko wersje oprogramowania nowsze niż zawarte w zestawie szkoleniowym.
  2. Jawne dodawanie niezawodności modelu przez rozszerzanie zestawów danych o typowe uszkodzenia, które można rozsądnie odnaleźć w środowisku naturalnym.
  3. Jawne trenowanie w najgorszych przypadkach przy użyciu niepożądanego ponownego trenowania.
  4. Śledź eksperymenty i skojarzone meta.

Wybieranie modelu

Wybór modelu składa się z jednego modelu z zestawu kandydatów, gdzie każdy kandydat ma unikatowy zestaw parametrów modelu, algorytm trenowania i trenowanie hiperparami. Kryterium wyboru dla modelu zwycięskiego jest często oparte na pojedynczej metryce kwantyfikowalnej (na przykład minimalnej utraty, maksymalnej szybkości wykrywania) mierzonej na typowym zestawie danych holdout lub zgodnie z wartością uśrednianą dla zestawu weryfikacji z możliwością składania K.

Kontrola: Algorytm projektowania i trenowania modelu obejmuje jawne lub niejawne regularyzacja modelu.

Instrukcja zagrożenia: Modele są nadmiernie dopasowane do zestawu danych trenowania i/lub pojedynczej weryfikacji i są bardziej narażone na tryby awarii.

Wskazówki:

  1. W przypadku możliwości obliczeniowych należy użyć krzyżowej weryfikacji k-fold, aby zapobiec nadmiernemu dopasowaniu do pojedynczego zestawu blokady.
  2. Sprawdź, czy wybrane modele działają dobrze w różnych zestawach blokad, aby sprawdzić, czy nie są one nadmiernie dopasowane.
  3. Upewnij się, że procesy istnieją.

Wersje modelu danych

Kontrola: Modele są stale ponownie trenowane, ponieważ nowe dane szkoleniowe przepływają do potoków trenowania.

Instrukcja zagrożenia: zdarzenie występuje, ale zaangażowany model nie może być zlokalizowany do badania.

Wskazówki:

  1. Modele wersji, takie jak za każdym razem, gdy model jest trenowany, ma przypisaną nową wersję. Kwalifikatory, takie jak my_model_dev_1.1 lub my_model_prod_1.1, powinny służyć do oznaczania produkcji z modeli przedprodukcyjnych. Takie przechowywanie wersji pomaga wyizolować problemy z problemem produkcyjnym lub przedprodukcyjnym. Odwołuj się do istniejących bezpiecznych procesów lub zasad SDL.

Wdrożenie modelu

Kontrolki i zasady dotyczące wdrażania modeli, algorytmów i infrastruktury pomocniczej.

Testowanie zabezpieczeń

Kontrola: Modele wprowadzane do środowiska produkcyjnego są odpowiednio zabezpieczone.

Instrukcja zagrożenia: systemy sztucznej inteligencji nie są odpowiednio testowane pod kątem luk w zabezpieczeniach przed wdrożeniem.

Wskazówki:

  1. Formalne kryteria testowania akceptacyjnego nie zostały zdefiniowane i udokumentowane dla nowych systemów sztucznej inteligencji, uaktualnień i nowych wersji.
  2. Nowe systemy sztucznej inteligencji, uaktualnienia lub nowe wersje powinny być implementowane przy użyciu testów formalnych.
  3. Zautomatyzowane narzędzia powinny być używane do testowania systemów informacyjnych, uaktualnień lub nowych wersji.
  4. Środowisko testowe powinno przypominać końcowe środowisko produkcyjne.
  5. Częstotliwość, zakres i metody dla niezależnych przeglądów zabezpieczeń powinny być udokumentowane.

Przegląd zabezpieczeń i zgodności

Kontrola: Niezawodne zarządzanie podstawową siecią jest kluczem do zabezpieczenia systemu uczenia maszynowego i infrastruktury.

Instrukcja zagrożenia: naruszenie zabezpieczeń systemu uczenia maszynowego przez uzyskanie dostępu do niezabezpieczonej sieci.

Wskazówki:

  1. Urządzenia bramy do systemów uczenia maszynowego powinny być skonfigurowane do filtrowania ruchu między domenami i blokowania nieautoryzowanego dostępu.
  2. Odpowiednie wymogi ustawowe, regulacyjne i umowne powinny być wyraźnie zdefiniowane i udokumentowane oraz rozwiązane wraz z określonymi mechanizmami kontroli i poszczególnymi obowiązkami.
  3. Należy również udokumentować, zaimplementować lub przejrzeć wytyczne dotyczące bezpiecznej konfiguracji.
  4. Kryterium podziału sieci uczenia maszynowego na domeny powinno być zgodne z zasadami kontroli dostępu organizacji lub wymaganiami dotyczącymi dostępu organizacji.
  5. Mechanizmy takie jak bezpieczna brama, sieć VPN, routing dla systemów uczenia maszynowego powinny być implementowane wystarczająco, aby umożliwić ukończenie zestawu mechanizmów kontroli.
  6. Użytkownicy i inżynierowie uczenia maszynowego powinni stosować lub przestrzegać wymagań dotyczących implementacji mechanizmów kontroli w celu prawidłowego segregowania i ograniczania korzystania z publicznie dostępnych systemów, sieci wewnętrznych i krytycznych zasobów.

Monitorowanie systemu

Mechanizmy kontroli i zasady dotyczące ciągłego monitorowania systemów uczenia maszynowego i infrastruktury pomocniczej.

Dzienniki i przegląd dzienników

Kontrola: Rejestrowanie i monitorowanie jest niezbędne dla systemów uczenia maszynowego ze względów bezpieczeństwa.

Instrukcja zagrożenia: podczas badania nie można odnaleźć dzienników dla systemów uczenia maszynowego.

Wskazówki:

  1. Rejestrowanie i monitorowanie powinno odbywać się spójnie we wszystkich systemach sztucznej inteligencji i ich składnikach, w tym w magazynie, potokach, serwerach produkcyjnych itp.
  2. Dzienniki zdarzeń i zabezpieczeń powinny być regularnie przeglądane pod kątem nietypowych zachowań.
  3. Skonsolidowane raporty i alerty dotyczące aktywności systemu powinny być generowane i przeglądane przez kierownictwo lub przedstawiciel ds. zabezpieczeń.

Zarządzanie zdarzeniami

Role i obowiązki

Kontrola: dzienniki zabezpieczeń powinny być zbierane w centralnej lokalizacji.

Oświadczenie o zagrożeniu: Podczas badania analitycy zabezpieczeń nie mają sformalizowanego podręcznika.

Wskazówki:

  1. Organizacje muszą postępować zgodnie z formalnym procesem zgłaszania zdarzeń systemów sztucznej inteligencji w kontekście utraty usług, utraty sprzętu, utraty urządzeń, awarii systemu, przeciążeń systemu, błędów ludzkich, niezgodności z zasadami lub wytycznymi, naruszeniami zabezpieczeń fizycznych, niekontrolowanymi zmianami systemu, awariami oprogramowania, awariami sprzętu i naruszeniami dostępu.
  2. Formalne procedury reagowania na zdarzenia i eskalacji powinny zostać opracowane w celu udokumentowania działań podjętych po otrzymaniu raportu zdarzenia zabezpieczeń informacji.
  3. Procedury reagowania na zdarzenia powinny być testowane okresowo, śledząc metryki odpowiedzi.

Planowanie ciągłości działania

Planowanie, przegląd i wyniki

Kontrola: upewnij się, że systemy uczenia maszynowego można skorygować i odzyskać po zdarzeniu.

Oświadczenie o zagrożeniach: Zdarzenia powodują trwałe problemy z poufnością, integralnością lub dostępnością krytycznych systemów uczenia maszynowego.

Wskazówki:

  1. Krytyczne zasoby sztucznej inteligencji powinny być identyfikowane i spisane.
  2. Organizacja powinna opracować plan ciągłości działania (BCP) lub proces odzyskiwania po awarii (DR) w obliczu ataków na systemy sztucznej inteligencji.
  3. Organizacja musi zidentyfikować priorytety zagrożeń związanych z wpływem utraty krytycznych systemów sztucznej inteligencji na ataki.
  4. Organizacje muszą mieć testy ciągłości działalności biznesowej działające zgodnie z powtarzającym się harmonogramem krytycznych systemów sztucznej inteligencji.

Informacje

Jeśli masz pytania, komentarze lub opinie, skontaktuj się z .atml@microsoft.com

Pobierz plik PDF tego dokumentu z repozytorium GitHub.