Hoe werkt Azure AI Content Safety?
Azure AI Content Safety werkt met tekst en afbeeldingen en door AI gegenereerde inhoud.
De visiemogelijkheden voor inhoudsveiligheid worden mogelijk gemaakt door het Florence-basismodel van Microsoft, dat is getraind met miljarden tekst-afbeeldingsparen. Tekstanalyse maakt gebruik van technieken voor verwerking van natuurlijke taal, waardoor u beter inzicht krijgt in nuance en context. Azure AI Content Safety is meertalige en kan schadelijke inhoud in zowel korte als lange vorm detecteren. Het is momenteel beschikbaar in het Engels, Duits, Spaans, Frans, Portugees, Italiaans en Chinees.
Azure AI Content Safety classificeert inhoud in vier categorieën:
Een ernstniveau voor elke categorie wordt gebruikt om te bepalen of inhoud moet worden geblokkeerd, naar een moderator moet worden verzonden of automatisch moet worden goedgekeurd.
Azure AI Content Safety-functies zijn onder andere:
Tekstinhoud beveiligen
Gematigde tekst scant tekst in vier categorieën: geweld, haatspraak, seksuele inhoud en zelfbeschadiging. Voor elke categorie wordt een ernstniveau van 0 tot en met 6 geretourneerd. Dit niveau helpt bij het prioriteren van wat onmiddellijk aandacht nodig heeft voor mensen en hoe dringend. U kunt ook een blokkeringslijst maken om te scannen op termen die specifiek zijn voor uw situatie.
Promptschilden is een geïntegreerde API om jailbreakaanvallen van invoer naar LLM's te identificeren en te blokkeren. Het bevat zowel gebruikersinvoer als documenten. Deze aanvallen zijn prompts voor LLM's die proberen de ingebouwde veiligheidsfuncties van het model te omzeilen. Gebruikersprompts worden getest om ervoor te zorgen dat de invoer voor de LLM veilig is. Documenten worden getest om ervoor te zorgen dat ze geen onveilige instructies bevatten die in de tekst zijn ingesloten.
Met beveiligde materiaaldetectie wordt gecontroleerd of door AI gegenereerde tekst wordt gecontroleerd op beveiligde tekst, zoals recepten, copyrighted songteksten of ander origineel materiaal.
Geaardheidsdetectie beschermt tegen onnauwkeurige antwoorden in door AI gegenereerde tekst door LLM's. Openbare LLM's gebruiken gegevens die beschikbaar zijn op het moment dat ze zijn getraind. Gegevens kunnen echter worden geïntroduceerd na de oorspronkelijke training van het model of gebaseerd zijn op persoonlijke gegevens. Een geaard antwoord is een antwoord waarbij de uitvoer van het model is gebaseerd op de brongegevens. Een niet-geaard antwoord is een antwoord waarbij de uitvoer van het model verschilt van de brongegevens. Groundedness detection bevat een redeneringsoptie in het API-antwoord. Hiermee voegt u een redeneringsveld toe waarmee eventuele detectie van niet-geaardheid wordt uitgelegd. Redenering verhoogt echter de verwerkingstijd en kosten.
Inhoud van installatiekopieën beveiligen
Gematigde afbeeldingen scannen op ongepaste inhoud in vier categorieën: geweld, zelfbeschadiging, seksueel en haat. Er wordt een ernstniveau geretourneerd: veilig, laag of hoog. Vervolgens stelt u een drempelniveau van laag, gemiddeld of hoog in. De combinatie van de ernst en het drempelwaardeniveau bepaalt of de afbeelding voor elke categorie is toegestaan of geblokkeerd.
Matig multimodale inhoud scant zowel afbeeldingen als tekst, inclusief tekst die is geëxtraheerd uit een afbeelding met behulp van optische tekenherkenning (OCR). Inhoud wordt geanalyseerd in vier categorieën: geweld, haatspraak, seksuele inhoud en zelfbeschadiging.
Aangepaste veiligheidsoplossingen
Met aangepaste categorieën kunt u uw eigen categorieën maken door positieve en negatieve voorbeelden te geven en het model te trainen. Inhoud kan vervolgens worden gescand op basis van uw eigen categoriedefinities.
Bericht over het veiligheidssysteem helpt u effectieve prompts te schrijven om het gedrag van een AI-systeem te begeleiden.
Beperkingen
Azure AI Content Safety maakt gebruik van AI-algoritmen en detecteert dus mogelijk niet altijd ongepaste taal. En soms kan het acceptabele taal blokkeren, omdat deze afhankelijk is van algoritmen en machine learning om problematische taal te detecteren.
Azure AI Content Safety moet worden getest en geëvalueerd op echte gegevens voordat ze worden geïmplementeerd. En zodra het is geïmplementeerd, moet u het systeem blijven bewaken om te zien hoe nauwkeurig het presteert.
Nauwkeurigheid evalueren
Wanneer u evalueert hoe nauwkeurig Azure AI Content Safety voor uw situatie is, vergelijkt u de prestaties met vier criteria:
- Terecht positief - identificatie van schadelijke inhoud corrigeren.
- Fout-positief : onjuiste identificatie van schadelijke inhoud.
- Terecht negatief - correcte identificatie van ongevaarlijke inhoud.
- Fout-negatief : schadelijke inhoud wordt niet geïdentificeerd.
Azure AI Content Safety werkt het beste ter ondersteuning van menselijke moderators die gevallen van onjuiste identificatie kunnen oplossen. Wanneer mensen inhoud toevoegen aan een site, verwachten ze niet dat berichten zonder reden worden verwijderd. Door te communiceren met gebruikers over waarom inhoud wordt verwijderd of gemarkeerd als ongepast, kan iedereen begrijpen wat toegestaan is en wat niet.