Delen via


Azure AI Foundry-risico- en veiligheidsevaluaties (preview) Transparantienotitie

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Wat is een transparantienotitie?

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Voor het maken van een systeem dat geschikt is voor het beoogde doel, moet u begrijpen hoe de technologie werkt, wat de mogelijkheden en beperkingen zijn en hoe u de beste prestaties kunt bereiken. De transparantienotities van Microsoft zijn bedoeld om u te helpen begrijpen hoe onze AI-technologie werkt, de keuzes die systeemeigenaren kunnen maken die invloed kunnen hebben op de prestaties en het gedrag van het systeem, en het belang van het nadenken over het hele systeem, met inbegrip van de technologie, de mensen en de omgeving. U kunt Transparantienotities gebruiken bij het ontwikkelen of implementeren van uw eigen systeem, of deze delen met de personen die door uw systeem worden gebruikt of beïnvloed.

De transparantienotities van Microsoft maken deel uit van een bredere inspanning van Microsoft om onze AI-principes in de praktijk te brengen. Zie de Microsoft AI-principes voor meer informatie.

De basisprincipes van azure AI Foundry-risico- en veiligheidsevaluaties (preview)

Inleiding

Met de azure AI Foundry-risico- en veiligheidsevaluaties kunnen gebruikers de uitvoer van hun generatieve AI-toepassing evalueren voor tekstuele inhoudsrisico's: haatvolle en oneerlijke inhoud, seksuele inhoud, gewelddadige inhoud, zelfverschadigende inhoud, directe en indirecte jailbreak-kwetsbaarheid en beschermd materiaal in inhoud. Veiligheidsevaluaties kunnen ook helpen bij het genereren van adversarial gegevenssets om u te helpen de bewerking voor rode koppeling te versnellen en te verbeteren. Azure AI Foundry-veiligheidsevaluaties weerspiegelen de toezeggingen van Microsoft om ervoor te zorgen dat AI-systemen veilig en verantwoord worden gebouwd, waarbij onze principes voor verantwoorde AI operationeel worden gemaakt.

Belangrijke termen

  • Haatvolle en oneerlijke inhoud (voor tekst en afbeeldingen) verwijst naar elke taal of beeld die betrekking heeft op haat tegen of oneerlijke representaties van individuen en sociale groepen, waaronder maar niet beperkt tot ras, etniciteit, nationaliteit, geslacht, seksuele oriëntatie, religie, immigratiestatus, vermogen, persoonlijk uiterlijk en lichaamsgrootte. Oneerlijkheid treedt op wanneer AI-systemen sociale groepen onbehaakbaar behandelen of vertegenwoordigen, waardoor maatschappelijke onzekerheden ontstaan of bijdragen.
  • Seksuele inhoud (voor tekst en afbeeldingen) omvat taal of beeldmateriaal met betrekking tot anatomische organen en geslachtsdelen, romantische relaties, handelingen die worden weergegeven in erotische termen, zwangerschap, fysieke seksuele handelingen (waaronder aanval of seksueel geweld), prostitutie, pornografie en seksueel misbruik.
  • Gewelddadige inhoud (voor tekst en afbeeldingen) bevat taal of afbeeldingen die betrekking hebben op fysieke acties die bedoeld zijn om iemand of iets te kwetsen, verwonden, beschadigen of doden. Het omvat ook beschrijvingen van wapens en wapens (en verwante entiteiten zoals fabrikanten en verenigingen).
  • Zelfschadegerelateerde inhoud (voor tekst en afbeeldingen) bevat taal of beeldmateriaal met betrekking tot acties die bedoeld zijn om iemands lichaam te kwetsen, verwonden of beschadigen of zichzelf te doden.
  • Beveiligde materiaalinhoud (voor tekst) bekende tekstinhoud, bijvoorbeeld liedteksten, artikelen, recepten en geselecteerde webinhoud, die mogelijk wordt uitgevoerd door grote taalmodellen. Door de weergave van beschermd materiaal te detecteren en te voorkomen, kunnen organisaties de naleving van intellectuele-eigendomsrechten behouden en de originaliteit van inhoud behouden.
  • Beschermde materiaalinhoud (voor afbeeldingen) verwijst naar bepaalde beveiligde visuele inhoud, die wordt beschermd door copyright, zoals logo's en merken, kunstwerken of fictieve personages. Het systeem maakt gebruik van een basismodel voor afbeeldingen naar tekst om te bepalen of dergelijke inhoud aanwezig is.
  • Directe jailbreak, directe promptaanvallen of aanvallen van gebruikersprompts, verwijzen naar gebruikers die prompts manipuleren om schadelijke invoer in LLM's te injecteren om acties en uitvoer te verstoren. Een voorbeeld van een jailbreak-opdracht is een 'DAN' (Do Anything Now)-aanval, die de LLM kan misleiden in het genereren van ongepaste inhoud of het negeren van door het systeem opgelegde beperkingen.
  • Indirecte jailbreak indirecte promptaanvallen of aanvallen met promptinjecties tussen domeinen, verwijst naar wanneer schadelijke instructies worden verborgen in gegevens die een AI-systeem verwerkt of geaarde inhoud genereert. Deze gegevens kunnen e-mailberichten, documenten, websites of andere bronnen bevatten die niet rechtstreeks zijn geschreven door de ontwikkelaar of gebruiker en kunnen leiden tot het genereren van ongepaste inhoud of het negeren van door het systeem opgelegde beperkingen.
  • De foutsnelheid (inhoudsrisico) wordt gedefinieerd als het percentage exemplaren in uw testgegevensset dat een drempelwaarde overschrijdt voor de ernstschaal voor de gehele grootte van de gegevensset.
  • Red-teaming heeft in het verleden systematische adversarial aanvallen beschreven voor het testen van beveiligingsproblemen. Met de opkomst van Large Language Models (LLM) is de term uitgebreid voorbij traditionele cyberbeveiliging en ontwikkeld in gemeenschappelijk gebruik om veel soorten tests, testen en aanvallen van AI-systemen te beschrijven. Met LLM's kan zowel goedaardig als kwaadwillend gebruik potentieel schadelijke uitvoer produceren, die veel vormen kan aannemen, waaronder schadelijke inhoud zoals haatvolle spraak, aansporing of verheerlijking van geweld, verwijzing naar zelfverschadigende inhoud of seksuele inhoud.

Functies

Systeemgedrag

Azure AI Foundry richt een nauwkeurig afgestemd Azure OpenAI GPT-4o-model in en organiseert adversarial aanvallen op uw toepassing om een testgegevensset met hoge kwaliteit te genereren. Vervolgens wordt een ander GPT-4o-model inricht om aantekeningen te maken bij uw testgegevensset voor inhoud en beveiliging. Gebruikers bieden hun generatieve AI-toepassingseindpunt dat ze willen testen en de veiligheidsevaluaties zullen een statische testgegevensset uitvoeren op dat eindpunt, samen met het inhoudsrisicolabel (Zeer laag, Laag, Gemiddeld, Hoog) of label voor inhoudsrisicodetectie (Waar of Onwaar) en redenering voor het door AI gegenereerde label.

Gebruiksgevallen

Beoogde gebruik

De veiligheidsevaluaties zijn niet bedoeld voor andere doeleinden dan voor het evalueren van inhoudsrisico's en jailbreak-beveiligingsproblemen van uw generatieve AI-toepassing:

  • Evaluatie van uw generatieve AI-toepassing vooraf implementatie: Met behulp van de evaluatiewizard in de Azure AI Foundry-portal of de Azure AI Python SDK kunnen veiligheidsevaluaties op een geautomatiseerde manier evalueren om potentiële inhoud of beveiligingsrisico's te evalueren.
  • Het uitbreiden van uw red-teaming-bewerkingen: met behulp van de adversarial simulator kunnen veiligheidsevaluaties adversarial interacties simuleren met uw generatieve AI-toepassing om inhoud en beveiligingsrisico's te ontdekken.
  • Het communiceren van inhoud en beveiligingsrisico's aan belanghebbenden: Met behulp van de Azure AI Foundry-portal kunt u toegang tot uw Azure AI Foundry-project delen met resultaten van veiligheidsevaluaties met auditors of belanghebbenden op het gebied van naleving.

Overwegingen bij het kiezen van een use-case

We moedigen klanten aan gebruik te maken van azure AI Foundry-veiligheidsevaluaties in hun innovatieve oplossingen of toepassingen. Hier volgen echter enkele overwegingen bij het kiezen van een use-case:

  • Veiligheidsevaluaties moeten human-in-the-loop bevatten: het gebruik van geautomatiseerde evaluaties zoals Azure AI Foundry-veiligheidsevaluaties moet menselijke revisoren bevatten, zoals domeinexperts, om te beoordelen of uw generatieve AI-toepassing grondig is getest voordat ze worden geïmplementeerd voor eindgebruikers.
  • Veiligheidsevaluaties omvatten geen totale uitgebreide dekking: hoewel veiligheidsevaluaties een manier kunnen bieden om uw tests te verbeteren voor mogelijke inhoud of beveiligingsrisico's, is het niet ontworpen om handmatige bewerkingen voor rode koppeling te vervangen die specifiek zijn afgestemd op het domein, de use cases en het type eindgebruikers van uw toepassing.
  • Ondersteunde scenario's:
    • Voor adversarial simulatie: Vragen beantwoorden, multi-turn chat, samenvatting, zoeken, tekst herschrijven, ongeaarde en geaarde inhoud genereren.
    • Voor geautomatiseerde aantekening: Vragen beantwoorden en chatten met meerdere bochten.
  • De service wordt momenteel het beste gebruikt met het Engelse domein voor tekstuele generaties. Aanvullende functies, waaronder ondersteuning voor meerdere modellen, worden in aanmerking genomen voor toekomstige releases.
  • De dekking van inhoudsrisico's die in de veiligheidsevaluaties worden verstrekt, wordt onderverdeeld in een beperkt aantal gemarginaliseerde groepen en onderwerpen:
    • De metrische gegevens over haat en oneerlijkheid omvatten een beperkt aantal gemarginaliseerde groepen voor de demografische factor van geslacht (bijvoorbeeld mannen, vrouwen, niet-binaire mensen) en ras, afkomst, etniciteit en nationaliteit (bijvoorbeeld Zwart, Mexicaans, Europees). Niet alle gemarginaliseerde groepen in geslacht en ras, afkomst, etniciteit en nationaliteit worden behandeld. Andere demografische factoren die relevant zijn voor haat en oneerlijkheid hebben momenteel geen dekking (bijvoorbeeld handicap, seksualiteit, religie).
    • De metrische gegevens voor seksuele, gewelddadige en zelfverschadigende inhoud zijn gebaseerd op een voorlopige conceptualisatie van deze schades die minder ontwikkeld zijn dan haat en oneerlijkheid. Dit betekent dat we minder sterke claims kunnen maken over meetdekking en hoe goed de metingen de verschillende manieren vertegenwoordigen waarop deze schade kan optreden. Dekking voor deze inhoudstypen omvat een beperkt aantal onderwerpen die betrekking hebben op seks (bijvoorbeeld seksueel geweld, relaties, seksuele handelingen), geweld (bijvoorbeeld misbruik, verwonding van anderen, ontvoering) en zelfschade (bijvoorbeeld opzettelijke dood, opzettelijke zelfverwonding, eetstoornissen).
  • Azure AI Foundry-veiligheidsevaluaties maken momenteel geen invoegtoepassingen of uitbreidbaarheid mogelijk.
  • Om de kwaliteit up-to-date te houden en de dekking te verbeteren, streven we naar een cadans van toekomstige versies van verbetering van de adversarial simulatie en annotatiemogelijkheden van de service.

Technische beperkingen, operationele factoren en bereiken

  • Het gebied van grote taalmodellen (LLM's) blijft zich in een snel tempo ontwikkelen, waarbij continue verbetering van evaluatietechnieken nodig is om een veilige en betrouwbare implementatie van ai-systemen te garanderen. Azure AI Foundry-veiligheidsevaluaties weerspiegelen de toezegging van Microsoft om te blijven innoveren op het gebied van LLM-evaluatie. We streven ernaar de beste tooling te bieden om u te helpen bij het evalueren van de veiligheid van uw generatieve AI-toepassingen, maar het herkennen van effectieve evaluatie is een doorlopend werk dat wordt uitgevoerd.
  • De aanpassing van de veiligheidsevaluaties van Azure AI Foundry is momenteel beperkt. We verwachten alleen dat gebruikers hun invoergeneratieve AI-toepassingseindpunt leveren en onze service levert een statische gegevensset op die is gelabeld voor inhoudsrisico's.
  • Ten slotte moet worden opgemerkt dat dit systeem geen acties of taken automatiseert, het biedt alleen een evaluatie van de uitvoer van uw generatieve AI-toepassing, die moet worden beoordeeld door een menselijke beslisser in de lus voordat u ervoor kiest om de generatieve AI-toepassing of het systeem in productie te implementeren voor eindgebruikers.

Systeemprestaties

Aanbevolen procedures voor het verbeteren van systeemprestaties

  • Wanneer u rekening houdt met uw domein, dat bepaalde inhoud gevoeliger kan behandelen dan andere, kunt u overwegen de drempelwaarde voor het berekenen van het defectpercentage aan te passen.
  • Wanneer u de geautomatiseerde veiligheidsevaluaties gebruikt, kan er soms een fout optreden in uw door AI gegenereerde labels voor de ernst van een inhoudsrisico of de redenering ervan. Er is een handmatige kolom voor menselijke feedback om validatie van de geautomatiseerde veiligheidsevaluatieresultaten mogelijk te maken.

Evaluatie van azure AI Foundry-veiligheidsevaluaties

Evaluatiemethoden

Voor alle ondersteunde typen inhoudsrisico's hebben we de kwaliteit intern gecontroleerd door de frequentie van geschatte overeenkomsten tussen menselijke labelers te vergelijken met behulp van een ernstschaal van 0-7 en de geautomatiseerde annotator van de veiligheidsevaluaties, ook met behulp van een ernstschaal van 0-7 op dezelfde gegevenssets. Voor elk risicogebied hadden we zowel menselijke labelers als een geautomatiseerd annotatorlabel 500 Engels, tekst met één draai, 250 generaties tekst-naar-afbeelding en 250 multimodale tekst met generaties van afbeelding-naar-tekst. De menselijke labelers en de geautomatiseerde aantekeningen gebruikten niet precies dezelfde versies van de aantekeningenrichtlijnen; hoewel de richtlijnen van de geautomatiseerde annotator afkomstig zijn van de richtlijnen voor mensen, zijn ze sindsdien in verschillende mate afgeleid (met de richtlijnen voor haat en oneerlijkheid die het meest zijn afgeleid). Ondanks deze lichte tot gematigde verschillen, zijn we van mening dat het nog steeds nuttig is om algemene trends en inzichten te delen uit onze vergelijking van bij benadering overeenkomende overeenkomsten. In onze vergelijkingen hebben we gezocht naar overeenkomsten met een tolerantie van 2 niveaus (waarbij het menselijke label exact overeenkomt met het geautomatiseerde annotatorlabel of binnen 2 niveaus boven of onder de ernst), overeenkomt met een tolerantie van 1 niveau en overeenkomt met een 0-niveautolerantie.

Evaluatieresultaten

Over het algemeen zagen we een hoge frequentie van geschatte overeenkomsten in de risico's van zelfbeschadiging en seksuele inhoud voor alle tolerantieniveaus. Voor geweld en voor haat en oneerlijkheid was het geschatte matchpercentage tussen tolerantieniveaus lager. Deze resultaten waren deels te wijten aan een toegenomen afwijking in de inhoud van aantekeningenrichtlijnen voor menselijke labelers versus geautomatiseerde annotator, en deels vanwege de toegenomen hoeveelheid inhoud en complexiteit in specifieke richtlijnen.

Hoewel onze vergelijkingen tussen entiteiten zijn die enigszins worden gebruikt voor gematigd verschillende richtlijnen voor aantekeningen (en dus geen standaard vergelijkingen tussen menselijke modellen zijn), bieden deze vergelijkingen een schatting van de kwaliteit die we kunnen verwachten van de veiligheidsevaluaties van Azure AI Foundry op basis van de parameters van deze vergelijkingen. In het bijzonder hebben we alleen naar Engelse voorbeelden gekeken, dus onze bevindingen generaliseren mogelijk niet naar andere talen. Bovendien bestond elk gegevenssetvoorbeeld uit slechts één keer, en dus zijn er meer experimenten nodig om de generaliseerbaarheid van onze evaluatieresultaten te controleren op scenario's met meerdere paden (bijvoorbeeld een back-and-forth-gesprek, waaronder gebruikersquery's en systeemreacties). De typen voorbeelden die in deze evaluatiegegevenssets worden gebruikt, kunnen ook van grote invloed zijn op de geschatte matchfrequentie tussen menselijke labels en een geautomatiseerde annotator. Als voorbeelden gemakkelijker te labelen zijn (bijvoorbeeld als alle voorbeelden vrij zijn van inhoudsrisico's), kunnen we verwachten dat de geschatte matchfrequentie hoger is. De kwaliteit van menselijke labels voor een evaluatie kan ook van invloed zijn op de generalisatie van onze bevindingen.

Evaluatie en integratie van Azure AI Foundry-veiligheidsevaluaties voor uw gebruik

Meting en evaluatie van uw generatieve AI-toepassing vormen een essentieel onderdeel van een holistische benadering van AI-risicobeheer. Azure AI Foundry-veiligheidsevaluaties zijn een aanvulling op en moeten worden gebruikt in combinatie met andere ai-risicobeheerprocedures. Domeinexperts en revisoren in de loop moeten een goed toezicht bieden bij het gebruik van ai-ondersteunde veiligheidsevaluaties in het ontwerp, de ontwikkeling en de implementatiecyclus van ai-toepassingen. U moet de beperkingen en het beoogde gebruik van de veiligheidsevaluaties begrijpen, waarbij u ervoor zorgt dat u niet vertrouwt op uitvoer die wordt geproduceerd door AI Foundry AI-evaluaties in isolatie.

Vanwege de niet-deterministische aard van de LLM's kunnen fout-negatieve of positieve resultaten optreden, zoals een hoog ernstniveau van gewelddadige inhoud die is beoordeeld als 'zeer laag' of 'laag'. Daarnaast kunnen evaluatieresultaten verschillende betekenissen hebben voor verschillende doelgroepen. Veiligheidsevaluaties kunnen bijvoorbeeld een label genereren voor 'lage' ernst van gewelddadige inhoud die mogelijk niet overeenkomt met de definitie van een menselijke revisor van hoe ernstig die specifieke gewelddadige inhoud kan zijn. In de Azure AI Foundry-portal bieden we een kolom met menselijke feedback met duimen omhoog en duim omlaag bij het bekijken van uw evaluatieresultaten om aan te geven welke instanties zijn goedgekeurd of gemarkeerd als onjuist door een menselijke revisor. Houd rekening met de context van hoe uw resultaten kunnen worden geïnterpreteerd voor besluitvorming door anderen waarmee u de evaluatieresultaten kunt delen en valideren met het juiste controleniveau voor het risiconiveau in de omgeving waarin elke generatieve AI-toepassing werkt.

Meer informatie over verantwoordelijke AI

Meer informatie over azure AI Foundry-veiligheidsevaluaties