Bezpečnost obsahu pro modely kurátorované službou Azure AI v katalogu modelů

Článek
02/25/2025

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

V tomto článku se dozvíte o možnostech zabezpečení obsahu pro modely z katalogu modelů nasazených pomocí bezserverových rozhraní API.

Výchozí hodnoty filtru obsahu

Azure AI používá výchozí konfiguraci filtrů obsahu Azure AI k detekci škodlivého obsahu ve čtyřech kategoriích, včetně nenávisti a nestrannosti, sebepoškozování, sexuálního a násilí pro modely nasazené prostřednictvím bezserverových rozhraní API. Další informace o filtrování obsahu (Preview) najdete v tématu Vysvětlení kategorií škod.

Výchozí konfigurace filtrování obsahu pro textové modely je nastavená tak, aby filtrovala na střední prahovou hodnotu závažnosti a filtrovala veškerý zjištěný obsah na této nebo vyšší úrovni. U modelů obrázků je výchozí konfigurace filtrování obsahu nastavená na nízkou prahovou hodnotu konfigurace, filtrování na této nebo vyšší úrovni. U modelů nasazených pomocí služby odvozování modelů Azure AI můžete vytvořit konfigurovatelné filtry výběrem karty Filtry obsahu na stránce Zabezpečení a zabezpečení na portálu Azure AI Foundry.

Tip

Filtrování obsahu (Preview) není k dispozici pro určité typy modelů nasazené prostřednictvím bezserverových rozhraní API. Mezi tyto typy modelů patří vkládání modelů a modelů časových řad.

Filtrování obsahu (Preview) probíhá synchronně, protože služba vyzve k vygenerování obsahu. Za takové použití se vám můžou účtovat samostatně podle cen služby Azure AI Content Safety. Filtrování obsahu (Preview) můžete zakázat pro jednotlivé koncové body bez serveru:

Při prvním nasazení jazykového modelu
Později výběrem přepínače filtrování obsahu na stránce podrobností nasazení

Předpokládejme, že se rozhodnete použít jiné rozhraní API než rozhraní API pro odvozování modelů Azure AI k práci s modelem nasazeným prostřednictvím bezserverového rozhraní API. V takové situaci není filtrování obsahu (Preview) povolené, pokud ho neimplementujete samostatně pomocí služby Azure AI Content Safety. Pokud chcete začít pracovat se službou Azure AI Content Safety, přečtěte si rychlý start: Analýza textového obsahu. Pokud při práci s modely nasazenými prostřednictvím bezserverových rozhraní API nepoužíváte filtrování obsahu (Preview), můžete uživatelům vystavit škodlivý obsah.

Vysvětlení kategorií škod

Kategorie škod

Kategorie	Popis	Termín rozhraní API
Nenávist a nestrannost	Nenávist a nestrannost poškozují veškerý obsah, který útoky nebo používá diskriminační jazyk s odkazem na osobu nebo skupinu identit na základě určitých atributů těchto skupin. To zahrnuje (mimo jiné): Rasa, etnická příslušnost, státní příslušnost Skupiny a výrazy genderové identity Sexuální orientace Náboženství Osobní vzhled a velikost těla Stav postižení Obtěžování a bullying	`Hate`
Sexuální	Sexuální popis jazyka související s anatomickými orgány a pohlavními orgány, romantickými vztahy a sexuálními činy, působí v erotických nebo laskavých termínech, včetně těch, které jsou znázorněny jako útok nebo vynucený sexuální násilí proti willu člověka. To zahrnuje, ale není omezené na: Vulgární obsah Prostituce Nahota a pornografie Zneužití Zneužívání dětí, zneužívání dětí, výmaz dětí	`Sexual`
Násilí	Násilí popisuje jazyk související s fyzickými činy, které mají ublížit, poškodit, poškodit nebo zabít někoho nebo něco; popisuje zbraně, zbraně a související entity. To zahrnuje, ale není omezené na: Zbraně Bullying and zastrašující Teroristická a násilná teroristická hrozba Sledování	`Violence`
Sebepoškozování	Sebepoškozování popisuje jazyk související s fyzickými akcemi, jejichž účelem je úmyslně ublížit, poškodit, poškodit tělo nebo zabít sebe. To zahrnuje, ale není omezené na: Poruchy stravování Bullying and zastrašující	`SelfHarm`

Úrovně závažnosti

Level	Popis
Safe	Obsah může souviset s násilím, sebepoškozováním, sexuálním nebo nenávistným kategoriím. Termíny se však používají obecně, novinářské, vědecké, lékařské a podobné profesionální kontexty, které jsou vhodné pro většinu posluchačů.
Nízká	Obsah, který vyjadřuje předsudky, úsudek nebo názorné názory, zahrnuje urážlivé použití jazyka, stereotypu, případy použití zkoumání fiktivního světa (například hry, literatury) a znázornění s nízkou intenzitou.
Střední	Obsah, který používá urážlivé, urážlivé, posměšné, zastrašující nebo demeaning jazyka na konkrétní skupiny identit, zahrnuje znázornění hledání a provádění škodlivých instrukcí, fantazí, glorifikace, propagaci škod ve střední intenzitě.
Vysoká	Obsah, který zobrazuje explicitní a závažné škodlivé instrukce, akce, poškození nebo zneužití; zahrnuje doporučení, glorifikace nebo propagaci závažných škodlivých činů, extrémních nebo nelegálních forem škod, radikalizace nebo nekonsensuální výměny moci nebo zneužití.

Způsob výpočtu poplatků

Podrobnosti o cenách se dají zobrazit na cenách azure AI Content Safety. Poplatky se účtují, když Azure AI Content Safety ověří výzvu nebo dokončení. Pokud Azure AI Content Safety blokuje výzvu nebo dokončení, budou se vám účtovat poplatky za vyhodnocení obsahu i volání odvozování.

Sdílet prostřednictvím

Bezpečnost obsahu pro modely kurátorované službou Azure AI v katalogu modelů

Výchozí hodnoty filtru obsahu

Vysvětlení kategorií škod

Kategorie škod

Úrovně závažnosti

Způsob výpočtu poplatků

Váš názor

Další materiály

Sdílet prostřednictvím

Bezpečnost obsahu pro modely kurátorované službou Azure AI v katalogu modelů

Výchozí hodnoty filtru obsahu

Vysvětlení kategorií škod

Kategorie škod

Úrovně závažnosti

Způsob výpočtu poplatků

Související obsah

Váš názor

Další materiály