Hur fungerar Azure AI Content Safety?
Azure AI Content Safety fungerar med text och bilder och AI-genererat innehåll.
Funktioner för innehållssäkerhetsvision drivs av Microsofts Grundmodell i Florens, som har tränats med miljarder textbildpar. Textanalys använder bearbetningstekniker för naturligt språk, vilket ger en bättre förståelse för nyanser och kontext. Azure AI Content Safety är flerspråkig och kan identifiera skadligt innehåll i både kort och lång form. Den finns för närvarande på engelska, tyska, spanska, franska, portugisiska, italienska och kinesiska.
Azure AI Content Safety klassificerar innehåll i fyra kategorier:
En allvarlighetsgrad för varje kategori används för att avgöra om innehåll ska blockeras, skickas till en moderator eller godkännas automatiskt.
Bland funktionerna i Azure AI Content Safety finns:
Skydda textinnehåll
Måttlig text söker igenom text i fyra kategorier: våld, hatpropaganda, sexuellt innehåll och självskadebeteende. En allvarlighetsgrad från 0 till 6 returneras för varje kategori. Den här nivån hjälper till att prioritera vad som behöver omedelbar uppmärksamhet av människor och hur brådskande. Du kan också skapa en blocklista för att söka efter termer som är specifika för din situation.
Prompt shields är ett enhetligt API för att identifiera och blockera jailbreak-attacker från indata till LLM:er. Den innehåller både användarindata och dokument. Dessa attacker uppmanar LLM:er som försöker kringgå modellens inbyggda säkerhetsfunktioner. Användarprompter testas för att säkerställa att indata till LLM är säkra. Dokument testas för att säkerställa att de inte innehåller osäkra instruktioner som är inbäddade i texten.
Skyddad materialidentifiering kontrollerar AI-genererad text för skyddad text, till exempel recept, upphovsrättsskyddade sångtexter eller annat originalmaterial.
Grundavkänning skyddar mot felaktiga svar i AI-genererad text av LLM:er. Offentliga LLM:er använder data som är tillgängliga när de tränades. Data kan dock introduceras efter den ursprungliga träningen av modellen eller byggas på privata data. Ett jordat svar är ett svar där modellens utdata baseras på källinformationen. Ett ogrundat svar är ett svar där modellens utdata varierar från källinformationen. Grundidentifiering innehåller ett resonemangsalternativ i API-svaret. Detta lägger till ett resonemangsfält som förklarar eventuell ogrundad identifiering. Resonemanget ökar dock bearbetningstiden och kostnaderna.
Skydda bildinnehåll
Måttliga bilder söker efter olämpligt innehåll i fyra kategorier: våld, självskadebeteende, sexuellt och hat. En allvarlighetsgrad returneras: säker, låg eller hög. Sedan anger du en tröskelvärdesnivå på låg, medelhög eller hög. Kombinationen av allvarlighetsgrad och tröskelvärdesnivå avgör om bilden tillåts eller blockeras för varje kategori.
Måttligt multimodalt innehåll söker igenom både bilder och text, inklusive text som extraherats från en bild med optisk teckenigenkänning (OCR). Innehållet analyseras i fyra kategorier: våld, hatpropaganda, sexuellt innehåll och självskadebeteende.
Anpassade säkerhetslösningar
Med anpassade kategorier kan du skapa egna kategorier genom att tillhandahålla positiva och negativa exempel och träna modellen. Innehållet kan sedan genomsökas enligt dina egna kategoridefinitioner.
Säkerhetssystemmeddelande hjälper dig att skriva effektiva uppmaningar som vägleder ett AI-systems beteende.
Begränsningar
Azure AI Content Safety använder AI-algoritmer och kan därför inte alltid identifiera olämpligt språk. Och ibland kan det blockera acceptabelt språk eftersom det förlitar sig på algoritmer och maskininlärning för att upptäcka problematiskt språk.
Azure AI Content Safety bör testas och utvärderas på verkliga data innan de distribueras. Och när det har distribuerats bör du fortsätta att övervaka systemet för att se hur korrekt det presterar.
Utvärdera noggrannhet
När du utvärderar hur exakt Azure AI Content Safety är för din situation kan du jämföra dess prestanda med fyra kriterier:
- Sant positivt – korrekt identifiering av skadligt innehåll.
- Falsk positiv identifiering – felaktig identifiering av skadligt innehåll.
- Sant negativt – korrekt identifiering av ofarligt innehåll.
- Falskt negativt – skadligt innehåll identifieras inte.
Azure AI Content Safety fungerar bäst för att stödja mänskliga moderatorer som kan lösa fall av felaktig identifiering. När personer lägger till innehåll på en webbplats förväntar de sig inte att inlägg tas bort utan anledning. Att kommunicera med användare om varför innehåll tas bort eller flaggas som olämpligt hjälper alla att förstå vad som är tillåtet och vad som inte är det.