Nota sulla trasparenza per le valutazioni di sicurezza di Azure AI Foundry

Articolo
11/24/2024

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Che cos'è la nota sulla trasparenza

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne faranno uso, le persone interessate e l'ambiente di distribuzione. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e del modo in cui ottenere le migliori prestazioni. Le note sulla trasparenza di Microsoft sono destinate a aiutare a comprendere il funzionamento della tecnologia di IA, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno o saranno interessate dal sistema.

Le note sulla trasparenza di Microsoft fanno parte di un impegno più ampio in Microsoft per mettere in pratica i principi di intelligenza artificiale. Per altre informazioni, vedere i principi di IA Microsoft.

Nozioni di base sulle valutazioni di sicurezza di Azure AI Foundry

Introduzione

Le valutazioni di sicurezza del portale di Azure AI Foundry consentono agli utenti di valutare l'output dell'applicazione di intelligenza artificiale generativa per i rischi relativi ai contenuti testuali: contenuto odioso e sleale, contenuto sessuale, contenuto violento, contenuto correlato all'autolesionismo, vulnerabilità di jailbreak. Le valutazioni della sicurezza possono anche aiutare a generare set di dati antagonisti per accelerare e aumentare l'operazione di red-teaming. Le valutazioni di sicurezza di Azure AI Foundry riflettono gli impegni di Microsoft per garantire che i sistemi di intelligenza artificiale siano compilati in modo sicuro e responsabile, operando i principi di IA responsabile.

Termini importanti

Il contenuto odioso e scorretto si riferisce a qualsiasi linguaggio pertinente all'odio verso individui o a rappresentazioni scorrette di persone e gruppi sociali in base a determinati fattori, tra cui, a titolo esemplificativo e non esaustivo, razza, etnia, nazionalità, sesso, orientamento sessuale, religione, stato di immigrazione, capacità, aspetto personale e corporatura. La scorrettezza si registra quando i sistemi di IA trattano o rappresentano gruppi sociali in modo ingiusto, creando o contribuendo all'ingiustizia sociale.
Il contenuto sessuale include linguaggio relativo a organi anatomici e genitali, relazioni romantiche, atti rappresentati in termini erotici, gravidanza, atti sessuali fisici (tra cui aggressione o violenza sessuale), prostituzione, pornografia e abusi sessuali.
Il contenuto violento include linguaggio relativo ad azioni fisiche mirate a ferire, fare male, danneggiare o uccidere qualcuno o qualcosa. Include anche descrizioni di armi e pistole (ed entità correlate, come produttori e associazioni).
Il contenuto correlato all'autolesionismo include il linguaggio relativo alle azioni mirate a nuocere, ferire o danneggiare il proprio corpo o a uccidersi.
Jailbreak, attacchi di richiesta diretta o attacchi di inserimento delle richieste degli utenti, fare riferimento agli utenti che modificano le richieste di inserire input dannosi in LLM per distorcere azioni e output. Un esempio di comando jailbreak è un attacco "DAN" (Do Anything Now), che può ingannare l'LLM nella generazione di contenuti inappropriati o ignorare le restrizioni imposte dal sistema.
La frequenza dei difetti (rischio di contenuto) viene definita come percentuale di istanze nel set di dati di test che superano una soglia sulla scala di gravità rispetto all'intera dimensione del set di dati.
Il termine red teaming ha storicamente descritto attacchi antagonisti sistematici per testare le vulnerabilità di sicurezza. Con l'aumento degli LLM, il termine si è esteso oltre la sicurezza informatica tradizionale e si è evoluto nell'uso comune per descrivere molti tipi di probe, test e attacchi di sistemi di intelligenza artificiale. Con i LLM, sia l'utilizzo benigno che quello antagonista possono produrre output potenzialmente dannosi, che possono assumere molte forme, tra cui contenuto dannoso, come il discorso di odio, l'incitamento o la glorificazione della violenza, i riferimenti a contenuti di autolesionismo o il contenuto sessuale.

Funzionalità

Comportamento del sistema

Azure AI Foundry effettua il provisioning di un modello GPT-4 di Azure OpenAI e orchestra gli attacchi antagonisti contro l'applicazione per generare un set di dati di test di alta qualità. Esegue quindi il provisioning di un altro modello GPT-4 per annotare il set di dati di test per il contenuto e la sicurezza. Gli utenti forniscono l'endpoint dell'applicazione di intelligenza artificiale generativa da testare e le valutazioni della sicurezza restituiranno un set di dati di test statico su tale endpoint insieme all'etichetta di rischio del contenuto (Molto basso, Basso, Medio, Alto) e il motivo per l'etichetta generata dall'intelligenza artificiale.

Utilizzare casi

Usi previsti

Le valutazioni della sicurezza non sono destinate all'uso per scopi diversi dalla valutazione dei rischi per i contenuti e le vulnerabilità di jailbreak dell'applicazione di intelligenza artificiale generativa:

Valutazione della pre-distribuzione dell'applicazione di intelligenza artificiale generativa: usando la procedura guidata di valutazione nel portale di Azure AI Foundry o azure AI Python SDK, le valutazioni di sicurezza possono valutare in modo automatizzato per valutare potenziali contenuti o rischi per la sicurezza.
Aumento delle operazioni di red-teaming: usando il simulatore antagonista, le valutazioni della sicurezza possono simulare interazioni antagoniste con l'applicazione di intelligenza artificiale generativa per tentare di individuare i rischi per contenuti e sicurezza.
Comunicazione di contenuti e rischi per la sicurezza agli stakeholder: usando il portale di Azure AI Foundry, è possibile condividere l'accesso al progetto di Azure AI Foundry con i risultati delle valutazioni di sicurezza con i revisori o gli stakeholder della conformità.

Considerazioni sulla scelta di un caso d'uso

Si consiglia ai clienti di sfruttare le valutazioni di sicurezza di Azure AI Foundry nelle soluzioni o nelle applicazioni innovative. Tuttavia, ecco alcune considerazioni sulla scelta di un caso d'uso:

Le valutazioni di sicurezza devono includere un ciclo umano: l'uso di valutazioni automatizzate come azure AI Foundry safety valutazioni deve includere revisori umani, ad esempio esperti di dominio, per valutare se l'applicazione di intelligenza artificiale generativa è stata testata accuratamente prima della distribuzione agli utenti finali.
Le valutazioni di sicurezza non includono una copertura completa totale: anche se le valutazioni di sicurezza possono offrire un modo per aumentare i test per potenziali rischi per contenuti o rischi per la sicurezza, non è stato progettato per sostituire le operazioni manuali di red-teaming specifiche per il dominio dell'applicazione, i casi d'uso e il tipo di utenti finali.
Scenari supportati:
- Per la simulazione antagonista: risposta alle domande, chat a più turni, riepilogo, ricerca, riscrittura del testo, generazione di contenuti non in primo piano e a terra.
- Per annotazione automatizzata: risposta alle domande e chat a più turni.
Il servizio attualmente è utilizzato al meglio con il dominio inglese solo per generazioni testuali. Per le versioni future verranno prese in considerazione funzionalità aggiuntive, tra cui il supporto per più modelli.
La copertura dei rischi relativi ai contenuti forniti nelle valutazioni della sicurezza è sottoposta a sottocampionamento da un numero limitato di gruppi e argomenti marginalizzati:
- La metrica di odio e scorrettezza include una copertura per un numero limitato di gruppi emarginati in base al fattore demografico di genere (ad esempio uomini, donne, persone non binarie) e i fattori di razza, origine, etnia e nazionalità (ad esempio neri, messicani, europei). Non tutti i gruppi emarginati in genere e razza, origini, etnie e nazionalità sono coperti. Altri fattori demografici rilevanti per l'odio e l'iniquità non hanno attualmente copertura (ad esempio disabilità, sessualità, religione).
- Le metriche per il contenuto sessuale, violento e di autolesionismo sono basate su una concettualizzazione preliminare secondo cui questi danni sono meno sviluppati rispetto all'odio e all'iniquità. Ciò significa che possiamo fare attestazioni meno forti sulla copertura delle misurazioni e sull'efficacia con cui queste rappresentano i diversi modi in cui possono verificarsi questi danni. La copertura per questi tipi di contenuti include un numero limitato di argomenti relativi al sesso (ad esempio violenza sessuale, relazioni, atti sessuali), violenza (ad esempio abusi, ferimento di altre persone, rapimento) e autolesionismo (ad esempio morte intenzionale, lesioni intenzionali a se stessi, disturbi alimentari).
Le valutazioni di sicurezza di Azure AI Foundry non consentono attualmente plug-in o estendibilità.
Per mantenere la qualità aggiornata e migliorare la copertura, si mira a una cadenza di rilasci futuri di miglioramento per le funzionalità di simulazione e annotazione antagoniste del servizio.

Limitazioni tecniche, fattori operativi e intervalli

Il campo dei modelli di linguaggio di grandi dimensioni continua a evolversi rapidamente, richiedendo un continuo miglioramento delle tecniche di valutazione per garantire una distribuzione sicura e affidabile del sistema di intelligenza artificiale. Le valutazioni di sicurezza di Azure AI Foundry riflettono l'impegno di Microsoft per continuare a innovare nel campo della valutazione LLM. L'obiettivo è fornire gli strumenti migliori per valutare la sicurezza delle applicazioni di intelligenza artificiale generativa, ma riconoscere una valutazione efficace è un lavoro costante.
La personalizzazione delle valutazioni di sicurezza di Azure AI Foundry è attualmente limitata. Ci aspettiamo solo che gli utenti forniscano l'endpoint dell'applicazione di intelligenza artificiale generativa di input. Il servizio restituirà un set di dati statico etichettato per il rischio di contenuto.
Infine, si noti che questo sistema non automatizza alcuna azione o attività, fornisce solo una valutazione degli output generativi dell'applicazione di intelligenza artificiale, che devono essere esaminati da un responsabile decisionale umano nel ciclo prima di scegliere di distribuire l'applicazione di intelligenza artificiale generativa o il sistema nell'ambiente di produzione per gli utenti finali.

Prestazioni del sistema

Procedure consigliate per migliorare le prestazioni del sistema

Quando si tiene conto del dominio, che potrebbe trattare alcuni contenuti in modo più sensibile rispetto ad altri, valutare la possibilità di modificare la soglia per calcolare il tasso di difetto.
Quando si usano le valutazioni di sicurezza automatizzate, potrebbe talvolta verificarsi un errore nelle etichette generate dall'intelligenza artificiale per la gravità di un rischio di contenuto o il relativo ragionamento. È disponibile una colonna di feedback umano manuale per abilitare la convalida umana nel ciclo dei risultati della valutazione automatica della sicurezza.

Valutazione delle valutazioni di sicurezza di Azure AI Foundry

Metodi di valutazione

Per tutti i tipi di rischio di contenuto supportati, è stata verificata internamente la qualità confrontando la frequenza delle corrispondenze approssimative tra gli etichettatori umani usando una scala di gravità di 0-7 e l'annotatore automatizzato delle valutazioni di sicurezza usando anche una scala di gravità di 0-7 sugli stessi set di dati. Per ogni area di rischio, abbiamo richiesto sia a etichettatori umani che a un annotatore automatizzato di etichettare 500 testi inglesi a turno singolo. Gli etichettatori umani e l'annotatore automatizzato non usano esattamente le stesse versioni delle linee guida per l'annotazione; mentre le linee guida dell'annotatore automatizzato si sono allontanate dalle linee guida per gli esseri umani, da allora si sono divergenti in diversi gradi (con le linee guida sull'odio e l'iniquità che hanno di più divergente). Nonostante queste differenze lievi e moderate, riteniamo che sia ancora utile condividere tendenze generali e informazioni dettagliate rispetto al confronto delle corrispondenze approssimative. Nei confronti abbiamo cercato corrispondenze con una tolleranza a 2 livelli (in cui l'etichetta umana corrisponde esattamente all'etichetta dell'annotatore automatizzato o si trovava entro 2 livelli superiori o inferiori in termini di gravità), corrispondenze con una tolleranza a 1 livello e corrispondenze con una tolleranza a 0 livelli.

Valutazione dei risultati

Nel complesso, abbiamo visto un tasso elevato di corrispondenze approssimative tra i rischi di contenuti di autolesionismo e contenuti sessuali in tutti i livelli di tolleranza. Per violenza, odio e scorrettezza, il tasso di corrispondenza approssimativo tra i livelli di tolleranza era inferiore. Questi risultati sono stati in parte dovuti a una maggiore divergenza nel contenuto delle linee guida per le annotazioni per gli etichettatori umani rispetto all'annotatore automatizzato e in parte a causa della maggiore quantità di contenuto e complessità nelle linee guida specifiche.

Anche se i confronti sono tra entità che usano leggermente linee guida per annotazioni moderatamente diverse (e quindi non sono confronti standard del contratto di modello umano), questi confronti forniscono una stima della qualità che è possibile prevedere dalle valutazioni di sicurezza di Azure AI Foundry in base ai parametri di questi confronti. In particolare, sono stati esaminati solo esempi in inglese, quindi i risultati potrebbero non essere validi per altre lingue. Inoltre, ogni campione di set di dati è costituito da un solo turno e quindi sono necessari più esperimenti per verificare l'aspetto generale dei risultati della valutazione in scenari a più turni, ad esempio una conversazione che include query utente e risposte del sistema. I tipi di campioni usati in questi set di dati di valutazione possono anche influire notevolmente sulla frequenza approssimativa di corrispondenza tra le etichette umane e un annotatore automatizzato: se i campioni sono più facili da etichettare (ad esempio se tutti i campioni sono privi di rischi per il contenuto), è possibile che la frequenza approssimativa delle corrispondenze sia più elevata. Anche la qualità delle etichette umane per una valutazione potrebbe influire sulla generalizzazione dei risultati.

Valutazione e integrazione delle valutazioni di sicurezza di Azure AI Foundry per l'uso

La misurazione e la valutazione dell'applicazione di intelligenza artificiale generativa sono una parte fondamentale di un approccio olistico alla gestione dei rischi legati all'intelligenza artificiale. Le valutazioni di sicurezza di Azure AI Foundry sono complementari a e devono essere usate in combinazione con altre procedure di gestione dei rischi di intelligenza artificiale. Gli esperti di dominio e i revisori umani nel processo devono fornire una supervisione appropriata quando si usano valutazioni della sicurezza assistite dall'intelligenza artificiale nel ciclo di progettazione, sviluppo e distribuzione di applicazioni di intelligenza artificiale generativa. È necessario comprendere le limitazioni e gli usi previsti delle valutazioni di sicurezza, prestare attenzione a non basarsi sugli output prodotti dalle valutazioni di sicurezza assistita dall'intelligenza artificiale di Azure ai Foundry in isolamento.

A causa della natura non deterministica delle VM, è possibile che si verifichino risultati falsi negativi o positivi, ad esempio un livello di gravità elevato di contenuto violento con punteggio "molto basso" o "basso". Inoltre, i risultati della valutazione potrebbero avere significati diversi per destinatari diversi. Ad esempio, le valutazioni di sicurezza potrebbero generare un'etichetta per la gravità "bassa" del contenuto violento che potrebbe non essere allineata alla definizione di un revisore umano del livello di gravità del contenuto violento specifico. Nel portale di Azure AI Foundry è disponibile una colonna di feedback umano con pollici in su e pollici in giù quando si visualizzano i risultati della valutazione per individuare le istanze approvate o contrassegnate come non corrette da un revisore umano. Si consideri il contesto del modo in cui i risultati possono essere interpretati per il processo decisionale da altri utenti con cui è possibile condividere la valutazione o con cui convalidare i risultati della valutazione con il livello di controllo appropriato per il livello di rischio nell'ambiente in cui opera ogni applicazione di intelligenza artificiale generativa.

Condividi tramite