Bezpečnost obsahu pro modely kurátorované službou Azure AI v katalogu modelů
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
V tomto článku se dozvíte o možnostech zabezpečení obsahu pro modely z katalogu modelů nasazených pomocí bezserverových rozhraní API.
Výchozí hodnoty filtru obsahu
Azure AI používá výchozí konfiguraci filtrů obsahu Azure AI k detekci škodlivého obsahu ve čtyřech kategoriích, včetně nenávisti a nestrannosti, sebepoškozování, sexuálního a násilí pro modely nasazené prostřednictvím bezserverových rozhraní API. Další informace o filtrování obsahu (Preview) najdete v tématu Vysvětlení kategorií škod.
Výchozí konfigurace filtrování obsahu pro textové modely je nastavená tak, aby filtrovala na střední prahovou hodnotu závažnosti a filtrovala veškerý zjištěný obsah na této nebo vyšší úrovni. U modelů obrázků je výchozí konfigurace filtrování obsahu nastavená na nízkou prahovou hodnotu konfigurace, filtrování na této nebo vyšší úrovni. U modelů nasazených pomocí služby odvozování modelů Azure AI můžete vytvořit konfigurovatelné filtry výběrem karty Filtry obsahu na stránce Zabezpečení a zabezpečení na portálu Azure AI Foundry.
Tip
Filtrování obsahu (Preview) není k dispozici pro určité typy modelů nasazené prostřednictvím bezserverových rozhraní API. Mezi tyto typy modelů patří vkládání modelů a modelů časových řad.
Filtrování obsahu (Preview) probíhá synchronně, protože služba vyzve k vygenerování obsahu. Za takové použití se vám můžou účtovat samostatně podle cen služby Azure AI Content Safety. Filtrování obsahu (Preview) můžete zakázat pro jednotlivé koncové body bez serveru:
- Při prvním nasazení jazykového modelu
- Později výběrem přepínače filtrování obsahu na stránce podrobností nasazení
Předpokládejme, že se rozhodnete použít jiné rozhraní API než rozhraní API pro odvozování modelů Azure AI k práci s modelem nasazeným prostřednictvím bezserverového rozhraní API. V takové situaci není filtrování obsahu (Preview) povolené, pokud ho neimplementujete samostatně pomocí služby Azure AI Content Safety. Pokud chcete začít pracovat se službou Azure AI Content Safety, přečtěte si rychlý start: Analýza textového obsahu. Pokud při práci s modely nasazenými prostřednictvím bezserverových rozhraní API nepoužíváte filtrování obsahu (Preview), můžete uživatelům vystavit škodlivý obsah.
Vysvětlení kategorií škod
Kategorie škod
Kategorie | Popis | Termín rozhraní API |
---|---|---|
Nenávist a nestrannost | Nenávist a nestrannost poškozují veškerý obsah, který útoky nebo používá diskriminační jazyk s odkazem na osobu nebo skupinu identit na základě určitých atributů těchto skupin. To zahrnuje (mimo jiné):
|
Hate |
Sexuální | Sexuální popis jazyka související s anatomickými orgány a pohlavními orgány, romantickými vztahy a sexuálními činy, působí v erotických nebo laskavých termínech, včetně těch, které jsou znázorněny jako útok nebo vynucený sexuální násilí proti willu člověka. To zahrnuje, ale není omezené na:
|
Sexual |
Násilí | Násilí popisuje jazyk související s fyzickými činy, které mají ublížit, poškodit, poškodit nebo zabít někoho nebo něco; popisuje zbraně, zbraně a související entity. To zahrnuje, ale není omezené na:
|
Violence |
Sebepoškozování | Sebepoškozování popisuje jazyk související s fyzickými akcemi, jejichž účelem je úmyslně ublížit, poškodit, poškodit tělo nebo zabít sebe. To zahrnuje, ale není omezené na:
|
SelfHarm |
Úrovně závažnosti
Level | Popis |
---|---|
Safe | Obsah může souviset s násilím, sebepoškozováním, sexuálním nebo nenávistným kategoriím. Termíny se však používají obecně, novinářské, vědecké, lékařské a podobné profesionální kontexty, které jsou vhodné pro většinu posluchačů. |
Nízká | Obsah, který vyjadřuje předsudky, úsudek nebo názorné názory, zahrnuje urážlivé použití jazyka, stereotypu, případy použití zkoumání fiktivního světa (například hry, literatury) a znázornění s nízkou intenzitou. |
Střední | Obsah, který používá urážlivé, urážlivé, posměšné, zastrašující nebo demeaning jazyka na konkrétní skupiny identit, zahrnuje znázornění hledání a provádění škodlivých instrukcí, fantazí, glorifikace, propagaci škod ve střední intenzitě. |
Vysoká | Obsah, který zobrazuje explicitní a závažné škodlivé instrukce, akce, poškození nebo zneužití; zahrnuje doporučení, glorifikace nebo propagaci závažných škodlivých činů, extrémních nebo nelegálních forem škod, radikalizace nebo nekonsensuální výměny moci nebo zneužití. |
Způsob výpočtu poplatků
Podrobnosti o cenách se dají zobrazit na cenách azure AI Content Safety. Poplatky se účtují, když Azure AI Content Safety ověří výzvu nebo dokončení. Pokud Azure AI Content Safety blokuje výzvu nebo dokončení, budou se vám účtovat poplatky za vyhodnocení obsahu i volání odvozování.