Jak funguje zabezpečení obsahu Azure AI?

Dokončeno

Azure AI Content Safety pracuje s textem a obrázky a obsahem vygenerovaným AI.

Možnosti zpracování obrazu v oblasti bezpečnosti obsahu využívají základní model Florencie Od Microsoftu, který byl trénován miliardami párů text-image. Analýza textu používá techniky zpracování přirozeného jazyka, které poskytují lepší porozumění nuancí a kontextu. Azure AI Content Safety je vícejazyčný a dokáže detekovat škodlivý obsah v krátké i dlouhé podobě. Aktuálně je k dispozici v angličtině, němčině, španělštině, francouzštině, portugalštině, italštině a čínštině.

Azure AI Content Safety klasifikuje obsah do čtyř kategorií:

Diagram čtyř kategorií Azure AI Content Safety klasifikuje obsah do.

Úroveň závažnosti pro každou kategorii se používá k určení, jestli se má obsah blokovat, odeslat moderátoru nebo automaticky schválit.

Mezi funkce zabezpečení obsahu Azure AI patří:

Ochrana textového obsahu

  • Moderování textu prohledává text ve čtyřech kategoriích: násilí, nenávisti, sexuální obsah a sebepoškozování. Pro každou kategorii se vrátí úroveň závažnosti od 0 do 6. Tato úroveň pomáhá určit prioritu toho, co vyžaduje okamžitou pozornost lidí a jak naléhavě. Můžete také vytvořit seznam blokovaných položek a vyhledat termíny specifické pro vaši situaci.

  • Výzvy štítů jsou sjednocené rozhraní API pro identifikaci a blokování útoků s jailbreakem ze vstupů do LLM. Zahrnuje jak uživatelský vstup, tak dokumenty. Tyto útoky jsou výzvy k LLM, které se pokoušejí obejít integrované bezpečnostní funkce modelu. Výzvy uživatelů se testují, aby byl vstup do LLM bezpečný. Dokumenty se testují, aby se zajistilo, že neobsahují nebezpečné instrukce vložené do textu.

  • Detekce chráněných materiálů kontroluje text vygenerovaný AI pro chráněný text, jako jsou recepty, texty skladby s autorským právem nebo jiný původní materiál.

  • Detekce uzemnění chrání před nepřesnými odpověďmi v textu generovaném AI pomocí LLM. Veřejné LLM používají data dostupná v době, kdy byly natrénovány. Data však mohou být zavedena po původním trénování modelu nebo mohou být postavena na privátních datech. Grounded response is one where the model's output is based on the source information. Neuzemněná odpověď je ta, ve které se výstup modelu liší od informací o zdroji. Detekce uzemnění zahrnuje možnost odůvodnění v odpovědi rozhraní API. Tím se přidá pole s odůvodněním, které vysvětluje jakoukoli detekci neuzemnění. Zdůvodnění ale zvyšuje dobu zpracování a náklady.

Ochrana obsahu obrázku

  • Moderování obrázků hledá nevhodný obsah ve čtyřech kategoriích: násilí, sebepoškozování, sexuální a nenávist. Vrátí se úroveň závažnosti: bezpečná, nízká nebo vysoká. Pak nastavíte prahovou úroveň nízké, střední nebo vysoké. Kombinace úrovně závažnosti a prahové hodnoty určuje, jestli je obrázek povolený nebo blokovaný pro každou kategorii.

  • Moderování multimodálního obsahu kontroluje obrázky i text, včetně textu extrahovaného z obrázku pomocí optického rozpoznávání znaků (OCR). Obsah se analyzuje ve čtyřech kategoriích: násilí, nenávistná řeč, sexuální obsah a sebepoškozování.

Vlastní bezpečnostní řešení

  • Vlastní kategorie umožňují vytvářet vlastní kategorie tím, že poskytují pozitivní a negativní příklady a trénování modelu. Obsah pak můžete zkontrolovat podle vlastních definic kategorií.

  • Bezpečnostní systémová zpráva pomáhá psát efektivní výzvy k vedení chování systému AI.

Omezení

Azure AI Content Safety používá algoritmy AI, takže nemusí vždy rozpoznat nevhodný jazyk. A v některých případech může blokovat přijatelný jazyk, protože spoléhá na algoritmy a strojové učení k detekci problematického jazyka.

Před nasazením by se měla otestovat a vyhodnotit bezpečnost obsahu Azure AI na skutečných datech. Po nasazení byste měli dál monitorovat systém, abyste viděli, jak přesně funguje.

Vyhodnocení přesnosti

Při vyhodnocování přesné bezpečnosti obsahu Azure AI pro vaši situaci porovnejte její výkon se čtyřmi kritérii:

  • Pravdivě pozitivní - správná identifikace škodlivého obsahu.
  • Falešně pozitivní – nesprávná identifikace škodlivého obsahu.
  • Pravdivě negativní - správná identifikace neškodného obsahu.
  • Falešně negativní – škodlivý obsah není identifikován.

Azure AI Content Safety nejlépe podporuje lidské moderátory, kteří můžou vyřešit případy nesprávné identifikace. Když uživatelé přidávají obsah na web, neočekávají, že se příspěvky odeberou bez důvodu. Komunikace s uživateli o tom, proč se obsah odebere nebo označí jako nevhodný, pomůže všem pochopit, co je přípustné a co není.