Misbruikbewaking
Azure OpenAI Service detecteert en beperkt exemplaren van terugkerende inhoud en/of gedragingen die het gebruik van de service voorstellen op een manier die de gedragscode of andere toepasselijke productvoorwaarden kan schenden. Details over hoe gegevens worden verwerkt, vindt u op de pagina Gegevens, Privacy en Beveiliging .
Onderdelen van misbruikbewaking
Er zijn verschillende onderdelen voor het misbruiken van bewaking:
- Inhoudsclassificatie: Classificatiemodellen detecteren schadelijke tekst en/of afbeeldingen in gebruikersprompts (invoer) en voltooiingen (uitvoer). Het systeem zoekt naar categorieën van schade zoals gedefinieerd in de inhoudsvereisten en wijst ernstniveaus toe, zoals beschreven op de pagina Inhoudsfiltering . De signalen voor inhoudsclassificatie dragen bij aan patroondetectie, zoals hieronder wordt beschreven.
- Misbruikpatroon vastleggen: het bewakingssysteem voor misbruik van Azure OpenAI Service kijkt naar gebruikspatronen van klanten en maakt gebruik van algoritmen en heuristieken om indicatoren van potentieel misbruik te detecteren en te beoordelen. Gedetecteerde patronen houden bijvoorbeeld rekening met de frequentie en ernst waarmee schadelijke inhoud wordt gedetecteerd (zoals aangegeven in inhoudsclassificatiesignalen) in de prompts en voltooiingen van een klant, evenals de opzettelijkheid van het gedrag. De trends en urgentie van het gedetecteerde patroon hebben ook invloed op het scoren van mogelijke ernst van misbruik. Een hoger volume van schadelijke inhoud die is geclassificeerd als een hogere ernst, of terugkerende gedragingen die opzettelijkheid (zoals terugkerende jailbreakpogingen) aangeven, krijgen beide waarschijnlijk een hoge score die aangeeft dat mogelijk misbruik wordt aangegeven.
- Beoordeling en beslissing: vragen en voltooiingen die zijn gemarkeerd via inhoudsclassificatie en/of geïdentificeerd als onderdeel van een mogelijk misbruikend gebruikspatroon, worden onderworpen aan een ander beoordelingsproces om de analyse van het systeem te bevestigen en actiebeslissingen te informeren. Een dergelijke beoordeling wordt uitgevoerd via twee methoden: menselijke beoordeling en AI-beoordeling.
- Als prompts en voltooiingen standaard worden gemarkeerd via inhoudsclassificatie als schadelijk en/of als ze deel uitmaken van een mogelijk misbruikend gebruikspatroon, kunnen ze worden gesampled voor geautomatiseerde, ogende beoordeling met behulp van een LLM in plaats van een menselijke revisor. De LLM die voor dit doel wordt gebruikt, vraagt en wordt alleen voltooid om de analyse van het systeem te bevestigen en actiebeslissingen te informeren; prompts en voltooiingen die een dergelijke LLM-beoordeling ondergaan, worden niet opgeslagen door het systeem of worden gebruikt om de LLM of andere systemen te trainen.
- In sommige gevallen, wanneer geautomatiseerde beoordeling niet voldoet aan de toepasselijke betrouwbaarheidsdrempels in complexe contexten of als LLM-beoordelingssystemen niet beschikbaar zijn, kan menselijke blik op beoordeling worden geïntroduceerd om een extra beoordeling te maken. Dit kan helpen bij het verbeteren van de algehele nauwkeurigheid van misbruikanalyses. Geautoriseerde Microsoft-werknemers kunnen gemarkeerde inhoud beoordelen en de classificatie of bepaling bevestigen of corrigeren op basis van vooraf gedefinieerde richtlijnen en beleidsregels. Prompts en voltooiingen kunnen alleen worden geopend voor menselijke beoordeling door geautoriseerde Microsoft-werknemers via Secure Access Workstations (SAW's) met Just-In-Time-aanvraaggoedkeuring verleend door teammanagers. Voor Azure OpenAI Service-resources die zijn geïmplementeerd in de Europese Economische Ruimte, bevinden de geautoriseerde Microsoft-werknemers zich in de Europese Economische Ruimte. Dit menselijke beoordelingsproces vindt niet plaats als de klant is goedgekeurd voor de controle van gewijzigd misbruik.
- Melding en actie: wanneer een drempelwaarde voor beledigend gedrag is bevestigd op basis van de voorgaande stappen, wordt de klant op de hoogte gesteld van de bepaling per e-mail. Behalve in gevallen van ernstig of terugkerend misbruik krijgen klanten doorgaans de mogelijkheid om het misbruik te verklaren of te herstellen en mechanismen te implementeren om terugkeerpatroon te voorkomen. Als u het gedrag, of terugkerend of ernstig misbruik, niet kunt aanpakken, kan dit leiden tot opschorting of beëindiging van de toegang van de klant tot Azure OpenAI-resources en/of -mogelijkheden.
Misbruikcontrole gewijzigd
Sommige klanten willen de Azure OpenAI-service gebruiken voor een use-case waarbij zeer gevoelige of zeer vertrouwelijke gegevens worden verwerkt, of op een andere manier kunnen concluderen dat ze niet willen of niet het recht hebben om Microsoft toe te staan menselijke beoordeling op te slaan en uit te voeren op hun prompts en voltooiingen voor misbruikdetectie. Om deze problemen op te lossen, kunnen klanten die voldoen aan aanvullende criteria voor geschiktheid voor beperkte toegang, toepassen om misbruikcontrole te wijzigen door dit formulier in te vullen. Meer informatie over het toepassen van aangepaste misbruikbewaking bij Beperkte toegang tot Azure OpenAI Service en over de impact van gewijzigde misbruikcontrole op gegevensverwerking bij Gegevens, privacy en beveiliging voor Azure OpenAI Service.
Notitie
Wanneer misbruikcontrole wordt gewijzigd en menselijke beoordeling niet wordt uitgevoerd, kan de detectie van mogelijk misbruik minder nauwkeurig zijn. Klanten worden op de hoogte gesteld van mogelijke misbruikdetectie zoals hierboven beschreven en moeten bereid zijn om te reageren op een dergelijke melding om serviceonderbreking indien mogelijk te voorkomen.
Volgende stappen
- Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.
- Meer informatie over het begrijpen en beperken van risico's die zijn gekoppeld aan uw toepassing: Overzicht van verantwoorde AI-procedures voor Azure OpenAI-modellen.
- Meer informatie over hoe gegevens worden verwerkt in verband met inhoudsfiltering en misbruikcontrole: Gegevens, privacy en beveiliging voor Azure OpenAI Service.