Udostępnij za pośrednictwem


Uwaga dotycząca przejrzystości dla ocen bezpieczeństwa rozwiązania Azure AI Foundry

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Co to jest notatka dotycząca przezroczystości

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jakie są jej możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność. Uwagi dotyczące przejrzystości firmy Microsoft mają pomóc zrozumieć, w jaki sposób działa nasza technologia sztucznej inteligencji, wybory, które właściciele systemu mogą wpływać na wydajność i zachowanie systemu oraz znaczenie myślenia o całym systemie, w tym technologii, ludzi i środowiska. Możesz użyć notatek przezroczystości podczas opracowywania lub wdrażania własnego systemu lub udostępniać je osobom, które będą korzystać z systemu lub mają na nie wpływ.

Uwagi dotyczące przejrzystości firmy Microsoft są częścią szerszego wysiłku firmy Microsoft w celu wprowadzenia naszych zasad sztucznej inteligencji w życie. Aby dowiedzieć się więcej, zobacz Zasady sztucznej inteligencji firmy Microsoft.

Podstawy ocen bezpieczeństwa rozwiązania Azure AI Foundry

Wprowadzenie

Oceny bezpieczeństwa portalu azure AI Foundry umożliwiają użytkownikom ocenę danych wyjściowych ich generowania aplikacji sztucznej inteligencji pod kątem zagrożeń związanych z treściami tekstowymi: nienawistnej i niesprawiedliwej zawartości, zawartości seksualnej, brutalnej zawartości, zawartości związanej z samookaleczeniami, luki w zabezpieczeniach systemu jailbreak. Oceny bezpieczeństwa mogą również pomóc w generowaniu niepożądanych zestawów danych, aby przyspieszyć i rozszerzyć operację red-teaming. Oceny bezpieczeństwa rozwiązania Azure AI Foundry odzwierciedlają zobowiązania firmy Microsoft do zapewnienia, że systemy sztucznej inteligencji są tworzone bezpiecznie i odpowiedzialnie, operacjonalizując nasze zasady odpowiedzialnej sztucznej inteligencji.

Kluczowe terminy

  • Nienawistne i niesprawiedliwe treści odnoszą się do jakiegokolwiek języka odnoszącego się do nienawiści lub niesprawiedliwych reprezentacji osób i grup społecznych wraz z czynnikami, w tym z rasą, pochodzeniem etnicznym, narodowością, płcią, orientacją seksualną, religią, statusem imigracyjnym, zdolnością, wyglądem osobistym i rozmiarem ciała. Niesprawiedliwość występuje, gdy systemy sztucznej inteligencji traktują lub reprezentują nieodwinnie grupy społeczne, tworząc lub przyczyniając się do nierówności społecznych.
  • Treści seksualne obejmują język odnoszący się do anatomicznych narządów i narządów płciowych, romantycznych relacji, aktów przedstawianych w kategoriach erotycznych, ciąży, fizycznych aktów seksualnych (w tym napaści lub przemocy seksualnej), prostytucji, pornografii i wykorzystywania seksualnego.
  • Treści brutalne obejmują język odnoszący się do działań fizycznych mających na celu zranienie, uszkodzenie, uszkodzenie lub zabicie kogoś lub coś. Zawiera również opisy broni i broni (oraz powiązane jednostki, takie jak producenci i stowarzyszenia).
  • Zawartość związana z samookaleczeniami obejmuje język odnoszący się do działań mających na celu zranienie, uszkodzenie lub uszkodzenie ciała lub zabicie siebie.
  • Jailbreak, ataki z bezpośrednimi monitami lub ataki iniekcji monitów użytkownika, odnoszą się do użytkowników manipulujących monitami o wstrzyknięcie szkodliwych danych wejściowych do llMs w celu zniekształcenia akcji i danych wyjściowych. Przykładem polecenia jailbreak jest atak "DAN" (Do Anything Now), który może oszukać LLM w niewłaściwe generowanie zawartości lub ignorowanie ograniczeń narzuconych przez system.
  • Współczynnik wad (ryzyko zawartości) jest definiowany jako procent wystąpień w zestawie danych testowych, które przekraczają próg w skali ważności w całym rozmiarze zestawu danych.
  • Red-teaming historycznie opisał systematyczne ataki niepożądane na potrzeby testowania luk w zabezpieczeniach. Wraz z rozwojem dużych modeli językowych (LLM) termin ten rozszerzył się poza tradycyjne cyberbezpieczeństwo i ewoluował we wspólnym użyciu, aby opisać wiele rodzajów sondowania, testowania i atakowania systemów sztucznej inteligencji. Dzięki LLMs zarówno łagodne, jak i niepożądane użycie może produkować potencjalnie szkodliwe dane wyjściowe, które mogą przyjmować wiele form, w tym szkodliwe treści, takie jak nienawistne przemówienie, podżeganie lub gloryfikacja przemocy, odniesienie do treści związanych z samookaleczeniami lub treści seksualnych.

Możliwości

Zachowanie systemu

Usługa Azure AI Foundry aprowizuje model GPT-4 usługi Azure OpenAI i organizuje niepożądane ataki na aplikację w celu wygenerowania zestawu danych testowego wysokiej jakości. Następnie aprowizuj inny model GPT-4, aby dodać adnotację do zestawu danych testowych pod kątem zawartości i zabezpieczeń. Użytkownicy udostępniają generowany punkt końcowy aplikacji sztucznej inteligencji, który chce przetestować, a oceny bezpieczeństwa wygenerują statyczny zestaw danych testowych względem tego punktu końcowego wraz z etykietą ryzyka zawartości (bardzo niska, niska, średnia, wysoka) i uzasadnieniem etykiety wygenerowanej przez sztuczną inteligencję.

Przypadki użycia

Zamierzone zastosowania

Oceny bezpieczeństwa nie są przeznaczone do użycia w żadnym celu innym niż ocena zagrożeń związanych z zawartością i lukami w zabezpieczeniach systemu jailbreak aplikacji generującej sztuczną inteligencję:

  • Ocena przed wdrożeniem aplikacji generacyjnej sztucznej inteligencji: przy użyciu kreatora oceny w portalu usługi Azure AI Foundry lub zestawu SDK języka Python usługi Azure AI oceny bezpieczeństwa mogą ocenić w zautomatyzowany sposób w celu oceny potencjalnej zawartości lub zagrożeń bezpieczeństwa.
  • Rozszerzanie operacji red-teaming: przy użyciu symulatora niepożądanego oceny bezpieczeństwa mogą symulować niepożądane interakcje z generacyjną aplikacją sztucznej inteligencji, aby spróbować odkryć ryzyko związane z zawartością i bezpieczeństwem.
  • Przekazywanie zawartości i zagrożeń dla bezpieczeństwa uczestnikom projektu: korzystając z portalu usługi Azure AI Foundry, możesz udostępnić dostęp do projektu usługi Azure AI Foundry z wynikami oceny bezpieczeństwa audytorami lub uczestnikami projektu zgodności.

Zagadnienia dotyczące wybierania przypadku użycia

Zachęcamy klientów do korzystania z ocen bezpieczeństwa rozwiązania Azure AI Foundry w swoich innowacyjnych rozwiązaniach lub aplikacjach. Poniżej przedstawiono jednak niektóre zagadnienia dotyczące wybierania przypadku użycia:

  • Oceny bezpieczeństwa powinny obejmować ocenę człowieka w pętli: używanie automatycznych ocen, takich jak oceny bezpieczeństwa rozwiązania Azure AI Foundry, powinny obejmować recenzentów ludzkich, takich jak eksperci z dziedziny, aby ocenić, czy generacyjna aplikacja sztucznej inteligencji została dokładnie przetestowana przed wdrożeniem dla użytkowników końcowych.
  • Oceny bezpieczeństwa nie obejmują całkowitego kompleksowego pokrycia: Chociaż oceny bezpieczeństwa mogą zapewnić możliwość rozszerzenia testowania pod kątem potencjalnych zagrożeń związanych z zawartością lub bezpieczeństwem, nie zaprojektowano jej w celu zastąpienia ręcznych operacji red-teaming specjalnie dostosowanych do domeny aplikacji, przypadków użycia i typu użytkowników końcowych.
  • Obsługiwane scenariusze:
    • W przypadku niepożądanej symulacji: odpowiadanie na pytania, wieloetowe czaty, podsumowywanie, wyszukiwanie, ponowne zapisywanie tekstu, generowanie zawartości nieziemskiej i uziemione.
    • W przypadku automatycznej adnotacji: odpowiadanie na pytania i czat wieloełowy.
  • Obecnie usługa jest najlepiej używana w domenie angielskiej tylko w przypadku generowania tekstu. Dodatkowe funkcje, w tym obsługa wielu modeli, będą brane pod uwagę w przyszłych wersjach.
  • Zakres zagrożeń związanych z zawartością oferowanych w ocenach bezpieczeństwa jest podprzykładowany z ograniczonej liczby grup i tematów marginalizowanych:
    • Metryka nienawiści i niesprawiedliwości obejmuje pewną liczbę grup marginalizowanych dla czynnika demograficznego płci (na przykład mężczyzn, kobiet, osób niebinarnych) i rasy, przodków, pochodzenia, pochodzenia i narodowości (na przykład, Meksykański, Europejski). Nie wszystkie grupy marginalizowane w zakresie płci i rasy, przodków, pochodzenia etnicznego i narodowości są objęte. Inne czynniki demograficzne, które są istotne dla nienawiści i niesprawiedliwości, nie mają obecnie zasięgu (na przykład niepełnosprawności, seksualności, religii).
    • Metryki dotyczące treści związanych z seksem, przemocą i samookaleczeniami opierają się na wstępnej koncepcji tych szkód, które są mniej rozwinięte niż nienawiść i niesprawiedliwość. Oznacza to, że możemy sprawić, że mniej silne roszczenia dotyczące pokrycia pomiarów i tego, jak dobrze pomiary reprezentują różne sposoby wystąpienia tych szkód. Pokrycie dla tych typów treści obejmuje ograniczoną liczbę tematów związanych z seksem (na przykład przemoc seksualna, relacje, akty seksualne), przemoc (na przykład nadużycie, ranie innych, porwanie) i samookaleczenie (na przykład celowa śmierć, celowe uszkodzenie ciała, zaburzenia odżywiania).
  • Oceny bezpieczeństwa rozwiązania Azure AI Foundry nie zezwalają obecnie na wtyczki ani rozszerzalność.
  • Aby zapewnić aktualność i poprawić jakość obsługi, będziemy dążyć do terminów przyszłych wydań ulepszeń w niepożądanych symulacjach i możliwościach adnotacji usługi.

Ograniczenia techniczne, czynniki operacyjne i zakresy

  • Dziedzina dużych modeli językowych (LLMs) nadal rozwija się w szybkim tempie, wymagając ciągłego ulepszania technik oceny w celu zapewnienia bezpiecznego i niezawodnego wdrożenia systemu sztucznej inteligencji. Oceny bezpieczeństwa rozwiązania Azure AI Foundry odzwierciedlają zaangażowanie firmy Microsoft w dalsze wprowadzanie innowacji w dziedzinie oceny llM. Staramy się zapewnić najlepsze narzędzia ułatwiające ocenę bezpieczeństwa aplikacji generacyjnych sztucznej inteligencji, ale rozpoznawanie efektywnej oceny to ciągła praca w toku.
  • Dostosowywanie ocen bezpieczeństwa rozwiązania Azure AI Foundry jest obecnie ograniczone. Oczekujemy, że użytkownicy będą dostarczać wejściowy punkt końcowy aplikacji sztucznej inteligencji, a nasza usługa wyświetli statyczny zestaw danych oznaczony jako ryzyko związane z zawartością.
  • Na koniec należy zauważyć, że ten system nie automatyzuje żadnych akcji ani zadań, zapewnia tylko ocenę wygenerowanych danych wyjściowych aplikacji sztucznej inteligencji, które powinny być przeglądane przez człowieka podejmującego decyzje w pętli przed podjęciem decyzji o wdrożeniu generowania aplikacji sztucznej inteligencji lub systemu w środowisku produkcyjnym dla użytkowników końcowych.

Wydajność systemu

Najlepsze rozwiązania dotyczące poprawy wydajności systemu

  • W przypadku uwzględniania domeny, która może traktować część zawartości bardziej wrażliwie niż inna, rozważ dostosowanie progu do obliczenia współczynnika wad.
  • W przypadku korzystania z automatycznych ocen bezpieczeństwa w etykietach generowanych przez sztuczną inteligencję może wystąpić błąd dotyczący ważności ryzyka zawartości lub jego rozumowania. Istnieje ręczna kolumna opinii człowieka umożliwiająca weryfikację wyników zautomatyzowanej oceny bezpieczeństwa przez człowieka w pętli.

Ocena ocen bezpieczeństwa rozwiązania Azure AI Foundry

Metody oceny

W przypadku wszystkich obsługiwanych typów ryzyka zawartości wewnętrznie sprawdziliśmy jakość, porównując częstotliwość przybliżonych dopasowań między etykietami ludzkimi przy użyciu skali ważności 0–7, a automatyczne adnotacje oceny bezpieczeństwa również przy użyciu skalowania ważności 0–7 w tych samych zestawach danych. Dla każdego obszaru ryzyka mieliśmy zarówno etykiety ludzkie, jak i automatyczną etykietę adnotacji 500 angielskich, jednoełtowych tekstów. Osoby etykietowania i automatyczne adnotacje nie używały dokładnie tych samych wersji wytycznych dotyczących adnotacji; chociaż wytyczne zautomatyzowanego adnotacji wynikały z wytycznych dla ludzi, od tego czasu rozeszły się do różnych stopni (z wytycznymi dotyczącymi nienawiści i niesprawiedliwości, które najbardziej się rozeszły). Pomimo tych niewielkich do umiarkowanych różnic, uważamy, że nadal przydatne jest udostępnianie ogólnych trendów i szczegółowych informacji z naszego porównania przybliżonych dopasowań. W naszych porównaniach szukaliśmy dopasowań z tolerancją 2-poziomową (gdzie etykieta ludzka pasuje do etykiety automatycznej adnotacji dokładnie lub mieściła się na 2 poziomach powyżej lub poniżej ważności), pasuje do tolerancji na poziomie 1 i pasuje do tolerancji na poziomie 0.

Wyniki oceny

Ogólnie rzecz biorąc, widzieliśmy wysoki wskaźnik przybliżonych dopasowań w odniesieniu do ryzyka samookaleczenia i zawartości seksualnej na wszystkich poziomach tolerancji. W przypadku przemocy i nienawiści i niesprawiedliwości przybliżona stopa dopasowania między poziomami tolerancji była niższa. Wyniki te były częściowo spowodowane zwiększonym rozbieżnością w treści wytycznych adnotacji dla osób etykietowania w porównaniu z automatycznym adnotacjami, a częściowo ze względu na zwiększoną ilość zawartości i złożoności w określonych wytycznych.

Mimo że nasze porównania są między jednostkami, które były nieco używane do umiarkowanie różnych wytycznych adnotacji (i w związku z tym nie są standardowymi porównaniami umów modelu ludzkiego), te porównania zapewniają oszacowanie jakości, których możemy oczekiwać od ocen bezpieczeństwa rozwiązania Azure AI Foundry, biorąc pod uwagę parametry tych porównań. W szczególności przyjrzeliśmy się tylko przykładom w języku angielskim, więc nasze ustalenia mogą nie uogólniać innych języków. Ponadto każdy przykładowy zestaw danych składał się tylko z jednej kolei, a więc potrzebne są więcej eksperymentów w celu zweryfikowania uogólnienia wyników oceny w scenariuszach wieloeściowych (na przykład konwersacji z powrotem, w tym zapytań użytkowników i odpowiedzi systemowych). Typy próbek używanych w tych zestawach danych oceny mogą również znacznie wpływać na przybliżoną częstotliwość dopasowywania między etykietami ludzkimi a automatycznym adnotacją — jeśli próbki są łatwiejsze do etykietowania (na przykład jeśli wszystkie próbki są wolne od ryzyka związanego z zawartością), możemy oczekiwać, że przybliżona częstotliwość dopasowania będzie wyższa. Jakość etykiet ludzkich do oceny może również mieć wpływ na uogólnienie naszych ustaleń.

Ocenianie i integrowanie ocen bezpieczeństwa rozwiązania Azure AI Foundry na potrzeby użycia

Pomiar i ocena aplikacji generowania sztucznej inteligencji stanowią kluczową część całościowego podejścia do zarządzania ryzykiem sztucznej inteligencji. Oceny bezpieczeństwa rozwiązania Azure AI Foundry uzupełniają się i powinny być używane razem z innymi rozwiązaniami do zarządzania ryzykiem sztucznej inteligencji. Eksperci z dziedziny i recenzenci z zakresu pętli human-in-the-loop powinni zapewnić odpowiedni nadzór podczas korzystania z ocen bezpieczeństwa wspomaganych przez sztuczną inteligencję w cyklu projektowania, opracowywania i wdrażania aplikacji generujących sztuczną inteligencję. Należy zrozumieć ograniczenia i zamierzone zastosowania ocen bezpieczeństwa, uważając, aby nie polegać na danych wyjściowych generowanych przez oceny bezpieczeństwa wspomagane przez sztuczną inteligencję usługi Azure AI w izolacji.

Ze względu na niedeterministyczny charakter LLMs może wystąpić fałszywie ujemne lub pozytywne wyniki, takie jak wysoki poziom brutalnej zawartości oceniany jako "bardzo niski" lub "niski". Ponadto wyniki oceny mogą mieć różne znaczenie dla różnych odbiorców. Na przykład oceny bezpieczeństwa mogą wygenerować etykietę dla "niskiej" ważności brutalnej zawartości, która może nie być zgodna z definicją osoby recenzenta, jak poważna może być konkretna zawartość brutalna. W portalu azure AI Foundry udostępniamy kolumnę opinii człowieka z kciukami w górę i kciukami w dół podczas wyświetlania wyników oceny, które wystąpienia zostały zatwierdzone lub oflagowane jako nieprawidłowe przez recenzenta ludzkiego. Rozważ kontekst interpretowania wyników podejmowania decyzji przez inne osoby, którym można podzielić się ocenami i zweryfikować wyniki oceny przy użyciu odpowiedniego poziomu kontroli dla poziomu ryzyka w środowisku, w którym działa każda aplikacja generująca sztuczną inteligencję.

Dowiedz się więcej na temat odpowiedzialnej sztucznej inteligencji

Dowiedz się więcej o ocenach bezpieczeństwa rozwiązania Azure AI Foundry