Domyślne zasady bezpieczeństwa zawartości dla wnioskowania modelu AI platformy Azure
Wnioskowanie modelu AI platformy Azure obejmuje domyślne bezpieczeństwo stosowane do wszystkich modeli, z wyłączeniem interfejsu Azure OpenAI Whisper. Te konfiguracje zapewniają domyślnie środowisko odpowiedzialne.
Domyślne bezpieczeństwo ma na celu ograniczenie ryzyka, takiego jak nienawiść i sprawiedliwość, seksualna, przemoc, samookaleczenia, chroniona zawartość materialna i ataki z monitami użytkowników. Aby dowiedzieć się więcej na temat filtrowania zawartości, przeczytaj naszą dokumentację opisującą kategorie i poziomy ważności.
W tym dokumencie opisano konfigurację domyślną.
Napiwek
Domyślnie wszystkie wdrożenia modelu używają konfiguracji domyślnej. Można jednak skonfigurować filtrowanie zawartości dla wdrożenia modelu, jak wyjaśniono w temacie Konfigurowanie filtrowania zawartości.
Modele tekstowe
Modele tekstowe w wnioskowaniu modelu sztucznej inteligencji platformy Azure mogą przyjmować i generować zarówno tekst, jak i kod. Te modele stosują modele filtrowania zawartości tekstowej platformy Azure w celu wykrywania i zapobiegania szkodliwej zawartości. Ten system działa zarówno po wyświetleniu monitu, jak i zakończeniu.
Kategoria ryzyka | Monit/zakończenie | Próg ważności |
---|---|---|
Nienawiść i sprawiedliwość | Monity i zakończenia | Śred. |
Przemoc | Monity i zakończenia | Śred. |
Seksualny | Monity i zakończenia | Śred. |
Samookaleczenia | Monity i zakończenia | Śred. |
Atak polegający na wstrzyknięciu monitu użytkownika (Jailbreak) | Polecenia | Nie dotyczy |
Materiał chroniony — tekst | Uzupełnienia | Nie dotyczy |
Materiał chroniony — kod | Uzupełnienia | Nie dotyczy |
Przetwarzanie obrazów i czat z modelami obrazów
Modele obrazów mogą jednocześnie przyjmować tekst i obrazy jako część danych wejściowych. Domyślne możliwości filtrowania zawartości różnią się w zależności od modelu i dostawcy.
Azure OpenAI: GPT-4o i GPT-4 Turbo
Kategoria ryzyka | Monit/zakończenie | Próg ważności |
---|---|---|
Nienawiść i sprawiedliwość | Monity i zakończenia | Śred. |
Przemoc | Monity i zakończenia | Śred. |
Seksualny | Monity i zakończenia | Śred. |
Samookaleczenia | Monity i zakończenia | Śred. |
Identyfikacja osób i wnioskowania poufnych atrybutów | Polecenia | Nie dotyczy |
Atak polegający na wstrzyknięciu monitu użytkownika (Jailbreak) | Polecenia | Nie dotyczy |
Azure OpenAI: DALL-E 3 i DALL-E 2
Kategoria ryzyka | Monit/zakończenie | Próg ważności |
---|---|---|
Nienawiść i sprawiedliwość | Monity i zakończenia | Niski |
Przemoc | Monity i zakończenia | Niski |
Seksualny | Monity i zakończenia | Niski |
Samookaleczenia | Monity i zakończenia | Niski |
Poświadczenia zawartości | Uzupełnienia | Nie dotyczy |
Zwodnicze pokolenie kandydatów politycznych | Polecenia | Nie dotyczy |
Przedstawianie osób publicznych | Polecenia | Nie dotyczy |
Atak polegający na wstrzyknięciu monitu użytkownika (Jailbreak) | Polecenia | Nie dotyczy |
Materiał chroniony — znaki sztuki i studia | Polecenia | Nie dotyczy |
Wulgaryzmy | Polecenia | Nie dotyczy |
Oprócz poprzednich konfiguracji bezpieczeństwa usługa Azure OpenAI DALL-E jest również domyślnie wyposażona w transformację monitu. Ta transformacja odbywa się na wszystkich monitach o zwiększenie bezpieczeństwa oryginalnego monitu, w szczególności w kategoriach ryzyka różnorodności, zwodnicze pokolenie kandydatów politycznych, przedstawienie osób publicznych, materiałów chronionych i innych.
Meta: Llama-3.2-11B-Vision-Instruct i Llama-3.2-90B-Vision-Instruct
Filtry zawartości dotyczą tylko monitów tekstowych i uzupełniania. Obrazy nie podlegają con tryb namiotu ration.
Microsoft: Phi-3.5-vision-instruct
Filtry zawartości dotyczą tylko monitów tekstowych i uzupełniania. Obrazy nie podlegają con tryb namiotu ration.