Monitorowanie nadużyć

Artykuł
02/25/2025

Usługa Azure OpenAI wykrywa i ogranicza liczbę wystąpień cyklicznej zawartości i/lub zachowań, które sugerują korzystanie z usługi w sposób, który może naruszać Kodeks postępowania lub inne obowiązujące postanowienia dotyczące produktu. Szczegółowe informacje na temat sposobu obsługi danych można znaleźć na stronie Dane, Prywatność i Zabezpieczenia .

Składniki monitorowania nadużyć

Istnieje kilka składników monitorowania nadużyć:

Klasyfikacja zawartości: Modele klasyfikatora wykrywają szkodliwy tekst i/lub obrazy w monitach użytkownika (danych wejściowych) i uzupełnianiach (danych wyjściowych). System wyszukuje kategorie szkód zgodnie z definicją w wymaganiach dotyczących zawartości i przypisuje poziomy ważności zgodnie z opisem na stronie Filtrowanie zawartości. Sygnały klasyfikacji zawartości przyczyniają się do wykrywania wzorców zgodnie z poniższym opisem.
Przechwytywanie wzorca nadużyć: system monitorowania nadużyć usługi Azure OpenAI Service analizuje wzorce użycia klientów i stosuje algorytmy i algorytmy heurystyczne w celu wykrywania i oceniania wskaźników potencjalnych nadużyć. Wykryte wzorce uwzględniają na przykład częstotliwość i ważność wykrywania szkodliwej zawartości (jak wskazano w sygnałach klasyfikatora zawartości) w monitach i uzupełnianiu klienta, a także celowości zachowania. Trendy i pilność wykrytego wzorca również wpłyną na ocenę potencjalnej ważności nadużyć. Na przykład większa ilość szkodliwej zawartości sklasyfikowanej jako wyższa ważność lub cykliczne zachowanie wskazujące celowość (takie jak powtarzające się próby jailbreaku) są bardziej prawdopodobne, aby otrzymać wysoki wynik wskazujący potencjalne nadużycie.
Przegląd i decyzja: Monity i uzupełnienia oflagowane za pośrednictwem klasyfikacji zawartości i/lub zidentyfikowane jako część potencjalnie obraźliwego wzorca użytkowania są poddawane innemu procesowi przeglądu, aby ułatwić potwierdzenie analizy systemu i informowanie o decyzjach dotyczących akcji. Takie przeglądy są przeprowadzane za pomocą dwóch metod: przegląd człowieka i przegląd sztucznej inteligencji.
- Domyślnie, jeśli monity i uzupełnienia są oflagowane za pośrednictwem klasyfikacji zawartości jako szkodliwe i/lub zidentyfikowane jako część potencjalnie obraźliwego wzorca użycia, mogą być próbkowane do zautomatyzowanego przeglądania oczu przy użyciu llM zamiast recenzenta ludzkiego. LlM używany w tym celu przetwarza monity i uzupełnienia tylko w celu potwierdzenia analizy systemu i informowania o decyzjach dotyczących akcji; monity i zakończenia, które są poddawane takiemu przeglądowi LLM, nie są przechowywane przez system ani używane do trenowania usługi LLM lub innych systemów.
- W niektórych przypadkach, gdy automatyczny przegląd nie spełnia odpowiednich progów ufności w złożonych kontekstach lub jeśli systemy przeglądu LLM nie są dostępne, przegląd oczu człowieka może zostać wprowadzony w celu dokonania dodatkowego osądu. Może to pomóc poprawić ogólną dokładność analizy nadużyć. Autoryzowani pracownicy firmy Microsoft mogą ocenić oflagowaną zawartość oraz potwierdzić lub poprawić klasyfikację lub determinację na podstawie wstępnie zdefiniowanych wytycznych i zasad. Dostęp do monitów i uzupełniania można uzyskać tylko w celu przeglądu przez autoryzowanych pracowników firmy Microsoft za pośrednictwem stacji roboczych bezpiecznego dostępu (SAW) z żądaniem just in time (JIT) udzielonym przez menedżerów zespołów. W przypadku zasobów usługi Azure OpenAI wdrożonych w Europejskim Obszarze Gospodarczym autoryzowani pracownicy firmy Microsoft znajdują się w Europejskim Obszarze Gospodarczym. Ten proces przeglądu przez człowieka nie odbędzie się, jeśli klient został zatwierdzony do monitorowania zmodyfikowanych nadużyć.
Powiadomienie i akcja: po potwierdzeniu progu obraźliwego zachowania na podstawie powyższych kroków klient jest informowany o ustaleniu przez e-mail. Z wyjątkiem przypadków poważnych lub powtarzających się nadużyć, klienci zazwyczaj mają możliwość wyjaśnienia lub skorygowania — i zaimplementowania mechanizmów zapobiegania cyklowi — obraźliwego zachowania. Brak rozwiązania problemu z zachowaniem — lub powtarzającym się lub poważnym nadużyciem — może spowodować zawieszenie lub zakończenie dostępu klienta do zasobów usługi Azure OpenAI i/lub możliwości.

Zmodyfikowane monitorowanie nadużyć

Niektórzy klienci mogą chcieć używać usługi Azure OpenAI Service w przypadku użycia obejmującym przetwarzanie danych o wysokim stopniu wrażliwości lub poufności lub mogą dojść do wniosku, że nie chcą lub nie mają prawa zezwolić firmie Microsoft na przechowywanie monitów i uzupełnień oraz ich przeglądanie przez człowieka w celu wykrywania nadużyć. Aby rozwiązać te problemy, firma Microsoft umożliwia klientom, którzy spełniają dodatkowe kryteria uprawnień ograniczonego dostępu, aby zastosować się do modyfikowania monitorowania nadużyć, wypełniając ten formularz. Dowiedz się więcej na temat stosowania do monitorowania zmodyfikowanych nadużyć w obszarze Ograniczony dostęp do usługi Azure OpenAI Service oraz o wpływie zmodyfikowanego monitorowania nadużyć na przetwarzanie danych w obszarze Dane, prywatność i zabezpieczenia usługi Azure OpenAI Service.

Uwaga

Gdy monitorowanie nadużyć jest modyfikowane, a przegląd człowieka nie jest wykonywany, wykrywanie potencjalnych nadużyć może być mniej dokładne. Klienci są powiadamiani o potencjalnym wykryciu nadużyć, jak opisano powyżej, i powinni być przygotowani do reagowania na takie powiadomienie, aby uniknąć przerw w działaniu usługi, jeśli to możliwe.

Następne kroki

Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.
Dowiedz się więcej o zrozumieniu i ograniczaniu ryzyka związanego z aplikacją: Omówienie praktyk dotyczących odpowiedzialnej sztucznej inteligencji dla modeli Azure OpenAI.
Dowiedz się więcej o sposobie przetwarzania danych w zakresie filtrowania zawartości i monitorowania nadużyć: dane, prywatność i zabezpieczenia usługi Azure OpenAI Service.

Udostępnij za pośrednictwem

Monitorowanie nadużyć

Składniki monitorowania nadużyć

Zmodyfikowane monitorowanie nadużyć

Następne kroki

Opinia

Dodatkowe zasoby