Condividi tramite


Filtro del contenuto nel portale di Azure AI Foundry

Azure AI Foundry include un sistema di filtro dei contenuti che funziona insieme ai modelli di base e ai modelli di generazione di immagini DALL-E.

Importante

Il sistema di filtro del contenuto non viene applicato a richieste e completamenti elaborati dal modello Whisper nel Servizio OpenAI di Azure. Altre informazioni sul modello Whisper in Azure OpenAI.

Funzionamento

Questo sistema di filtro dei contenuti è basato su Sicurezza dei contenuti di Azure AI e funziona eseguendo sia l'input richiesto che l'output di completamento tramite un insieme di modelli di classificazione volti a rilevare e prevenire l'output di contenuti dannosi. Le variazioni nelle configurazioni dell'API e nella progettazione dell'applicazione potrebbero influire sui completamenti e quindi sul comportamento di filtro.

Con le distribuzioni del modello OpenAI di Azure, è possibile usare il filtro contenuto predefinito o creare un filtro contenuto personalizzato (descritto più avanti). Il filtro di contenuto predefinito è disponibile anche per altri modelli di testo curati da Azure AI nel catalogo dei modelli, ma i filtri di contenuto personalizzati non sono ancora disponibili per tali modelli. I modelli disponibili tramite Modelli come servizio hanno il filtro del contenuto abilitato per impostazione predefinita e non possono essere configurati.

Supporto di versioni in lingue diverse

I modelli di filtro del contenuto sono stati sottoposti a training e testati nelle lingue seguenti: inglese, tedesco, giapponese, spagnolo, francese, italiano, portoghese e cinese. Tuttavia, il servizio può funzionare in molte altre lingue, ma la qualità può variare. In tutti i casi, è necessario eseguire test personalizzati per assicurarsi che funzioni per l'applicazione.

Filtri di rischio per il contenuto (filtri di input e output)

I filtri speciali seguenti funzionano sia per l'input che per l'output dei modelli di intelligenza artificiale generativi:

Categorie

Categoria Descrizione
Hate La categoria di odio descrive gli attacchi o gli usi linguistici che includono linguaggio offensivo o discriminatorio con riferimento a una persona o a un gruppo di identità basato su determinati attributi distintivi di questi gruppi, tra cui, a titolo esemplificativo, razza, etnia, nazionalità, identità di genere ed espressione, orientamento sessuale, religione, stato di immigrazione, stato di abilità, aspetto personale e dimensioni del corpo.
Contenuti sessuali La categoria contenuto sessuale descrive linguaggio correlato a organi anatomici e genitali, relazioni romantiche, atti rappresentati in termini erotici o affettuosi, atti sessuali fisici, compresi quelli rappresentati come violenza sessuale o stupro, prostituzione, pornografia e abuso.
Violenza La categoria violenza descrive linguaggio relativo ad azioni fisiche che hanno lo scopo di ferire, lesionare, danneggiare o uccidere qualcuno o qualcosa; descrive armi, ecc.
Autolesionismo La categoria autolesionismo descrive il linguaggio correlato ad azioni fisiche che hanno lo scopo di ferire, lesionare o danneggiare il proprio corpo oppure a togliersi la vita.

Livelli di gravità

Categoria Descrizione
Safe I contenuti possono essere correlati a violenza, autolesionismo, argomenti sessuali o odio, ma i termini sono utilizzati in un contesto generale, giornalistico, scientifico, medico o altro contesto professionale simile, cosa appropriata per la maggior parte dei destinatari.
Basso Contenuti che esprimono opinioni pregiudizievoli, giudicanti o polemiche, incluso l'uso di linguaggio offensivo, stereotipi, casi d'uso che esplorano un mondo di fantasia (ad esempio, videogiochi o letteratura) e rappresentazioni a bassa intensità.
Medio Contenuti che usano linguaggio offensivo, derisorio, insultante, intimidatorio o sminuente verso gruppi di identità specifici, incluse rappresentazioni volte a cercare e seguire istruzioni, fantasie e glorificazioni dannose e promozione di violenza a media intensità.
Alta Contenuti che mostrano istruzioni esplicite e pericolose, azioni, danni o abusi; include l'approvazione, la glorificazione o la promozione di gravi atti pericolosi, forme estreme o illegali di pericolo, radicalizzazione oppure scambi e abusi di potere non consensuali.

Altri filtri di input

È inoltre possibile abilitare filtri speciali per gli scenari di IA generativa:

  • Attacchi jailbreak: gli attacchi jailbreak sono prompt degli utenti progettati per provocare il modello di intelligenza artificiale generativa in comportamenti esposti che è stato addestrato per evitare o per violare le regole impostate nel messaggio di sistema.
  • Attacchi indiretti: gli attacchi indiretti, noti anche come attacchi di prompt indiretti o attacchi cross-domain prompt injection, rappresentano una potenziale vulnerabilità in cui terze parti inseriscono istruzioni dannose all'interno di documenti a cui il sistema di intelligenza artificiale generativa può accedere ed elaborare.

Altri filtri di output

È anche possibile abilitare i filtri di output speciali seguenti:

  • Materiale protetto per il testo: il testo del materiale protetto descrive il contenuto di testo noto (ad esempio, testi di canzoni, articoli, ricette e contenuto Web selezionato) che possono essere restituiti da modelli linguistici di grandi dimensioni.
  • Materiale protetto per il codice: il codice materiale protetto descrive il codice sorgente che corrisponde a un set di codice sorgente da repository pubblici, che possono essere restituiti da modelli di linguaggio di grandi dimensioni senza una corretta citazione dei repository di origine.
  • Terraedness: il filtro di rilevamento dell'integrità rileva se le risposte di testo di modelli di linguaggio di grandi dimensioni (LLM) vengono messe a terra nei materiali di origine forniti dagli utenti.

Creare un filtro di contenuto in Azure AI Foundry

Per qualsiasi distribuzione di modelli in Azure AI Foundry, è possibile usare direttamente il filtro contenuto predefinito, ma potrebbe essere necessario avere più controllo. Ad esempio, è possibile rendere un filtro più rigoroso o più indulgente o abilitare funzionalità più avanzate, ad esempio schermate di richiesta e rilevamento dei materiali protetti.

Suggerimento

Per indicazioni sui filtri di contenuto nel progetto Azure AI Foundry, vedere Filtri del contenuto di Azure AI Foundry.

Per creare un filtro di contenuto, seguire questa procedura:

  1. Passare ad Azure AI Foundry e passare al progetto. Selezionare quindi la pagina Sicurezza e sicurezza dal menu a sinistra e selezionare la scheda Filtri contenuto.

    Screenshot del pulsante per creare un nuovo filtro contenuto.

  2. Selezionare + Crea filtro contenuto.

  3. Nella pagina Informazioni di base immettere un nome per la configurazione del filtro del contenuto. Selezionare una connessione da associare al filtro di contenuto. Quindi seleziona Avanti.

    Screenshot dell'opzione per selezionare o immettere informazioni di base come il nome del filtro durante la creazione di un filtro contenuto.

    È ora possibile configurare i filtri di input (per le richieste degli utenti) e i filtri di output (per il completamento del modello).

  4. Nella pagina Filtri di input è possibile impostare il filtro per il prompt di input. Per le prime quattro categorie di contenuto sono disponibili tre livelli di gravità configurabili: basso, medio e alto. È possibile usare i dispositivi di scorrimento per impostare la soglia di gravità se si determina che l'applicazione o lo scenario di utilizzo richiede filtri diversi rispetto ai valori predefiniti. Alcuni filtri, ad esempio Prompt Shields e Protected material detection, consentono di determinare se il modello deve annotare e/o bloccare il contenuto. Selezionando Annotazioni viene eseguito solo il rispettivo modello e vengono restituite annotazioni tramite risposta API, ma non verrà filtrato il contenuto. Oltre a aggiungere annotazioni, è anche possibile scegliere di bloccare il contenuto.

    Se il caso d'uso è stato approvato per i filtri di contenuto modificati, si riceve il controllo completo sulle configurazioni di filtro dei contenuti e può scegliere di disattivare parzialmente o completamente il filtro oppure abilitare l'annotazione solo per le categorie di danni al contenuto (violenza, odio, sesso e autolesionismo).

    Il contenuto verrà annotato per categoria e bloccato in base alla soglia impostata. Per le categorie violenza, odio, sesso e autolesionismo, regolare il dispositivo di scorrimento per bloccare i contenuti di gravità alta, media o bassa.

    Screenshot della schermata del filtro di input.

  5. Nella pagina Filtri di output è possibile configurare il filtro di output, che verrà applicato a tutto il contenuto di output generato dal modello. Configurare i singoli filtri come in precedenza. Questa pagina offre anche l'opzione Modalità streaming, che consente di filtrare i contenuti quasi in tempo reale mentre vengono generati dal modello, riducendo la latenza. Al termine, fare clic su Avanti.

    Il contenuto verrà annotato per ogni categoria e bloccato in base alla soglia. Per i contenuti violenti, i contenuti di odio, i contenuti sessuali e i contenuti autolesionistici, regolare la soglia per bloccare i contenuti dannosi con livelli di gravità uguali o superiori.

    Screenshot della schermata del filtro di output.

  6. Facoltativamente, nella pagina Distribuzione è possibile associare il filtro di contenuto a una distribuzione. Se una distribuzione selezionata include già un filtro associato, è necessario confermare che si vuole sostituirlo. È anche possibile associare il filtro di contenuto a una distribuzione in un secondo momento. Seleziona Crea.

    Screenshot dell'opzione per selezionare una distribuzione durante la creazione di un filtro contenuto.

    Le configurazioni di filtro del contenuto vengono create a livello di hub nel portale di Azure AI Foundry. Altre informazioni sulla configurabilità sono disponibili nella documentazione del servizio Azure OpenAI.

  7. Nella pagina Rivedi esaminare le impostazioni e quindi selezionare Crea filtro.

Usare un elenco di blocchi come filtro

È possibile applicare un elenco di elementi bloccati come filtro di input o output o entrambi. Abilitare l'opzione Elenco di elementi bloccati nella pagina Filtro input e/o Filtro output. Selezionare uno o più elenchi di elementi bloccati dall'elenco a discesa, oppure usare l'elenco di elementi bloccati dei contenuti volgari integrato. È possibile combinare più elenchi di elementi bloccati nello stesso filtro.

Applicare un filtro contenuto

Il processo di creazione del filtro offre la possibilità di applicare il filtro alle distribuzioni desiderate. È anche possibile modificare o rimuovere filtri di contenuto dalle distribuzioni in qualsiasi momento.

Per applicare un filtro di contenuto a una distribuzione, seguire questa procedura:

  1. Passare ad Azure AI Foundry e selezionare un progetto.

  2. Selezionare Modelli e endpoint nel riquadro sinistro e scegliere una delle distribuzioni e quindi selezionare Modifica.

    Screenshot del pulsante per modificare una distribuzione.

  3. Nella finestra Distribuzione aggiornamenti selezionare il filtro di contenuto da applicare alla distribuzione. Successivamente, selezionare Salva e chiudi.

    Screenshot del filtro di applicazione di contenuto.

    Se necessario, è anche possibile modificare ed eliminare una configurazione del filtro contenuto. Prima di eliminare una configurazione di filtro del contenuto, è necessario annullare l'assegnazione e sostituirla da qualsiasi distribuzione nella scheda Distribuzioni .

È ora possibile passare al playground per verificare se il filtro del contenuto funziona come previsto.

Configurabilità (anteprima)

La configurazione predefinita di filtro dei contenuti per la serie di modelli GPT è impostata per filtrare in base alla soglia di gravità media per tutte e quattro le categorie di danno da contenuto (odio, violenza, sesso e autolesionismo) e si applica sia ai prompt (testo, testo/immagini multimodali) che ai completion (testo). Ciò implica che i contenuti rilevati con livello di gravità medio o alto vengono filtrati, mentre i contenuti rilevati con livello di gravità basso non vengono filtrati in base ai filtri dei contenuti. Per DALL-E, la soglia di gravità predefinita è impostata su bassa sia per i prompt (testo) che per i completion (immagini), quindi i contenuti rilevati con livelli di gravità bassi, medi o alti vengono filtrati.

La funzionalità di configurabilità consente ai clienti di modificare le impostazioni (separatamente per prompt e completamenti) in modo da filtrare contenuto per ogni categoria di contenuto a livelli di gravità diversi, come descritto nella tabella seguente:

Intensità del filtro Configurabile per richieste Configurabile per completamenti Descrizione
Basso, medio, elevato Configurazione di filtraggio più intenso. Il contenuto rilevato a livelli di gravità basso, medio e alto viene filtrato.
Medio, alto Il contenuto rilevato con livello di gravità basso non viene filtrato, il contenuto a livello medio e alto viene filtrato.
Alto Il contenuto rilevato a livelli di gravità basso e medio non viene filtrato. Viene filtrato solo il contenuto a livello di gravità elevato. Richiede approvazione1.
Nessun filtro Se approvato1 Se approvato1 Nessun contenuto viene filtrato indipendentemente dal livello di gravità rilevato. Richiede approvazione1.

1 Per i modelli OpenAI di Azure, solo i clienti che sono stati approvati per il filtro del contenuto modificato hanno il controllo completo del filtro del contenuto, inclusa la configurazione dei filtri di contenuto a livello di gravità elevato o la disattivazione dei filtri di contenuto. Applicare per i filtri di contenuto modificati tramite questi moduli: Verifica di accesso limitato di Azure OpenAI: filtri di contenuto modificati e Monitoraggio degli abusi modificati.

I clienti sono tenuti ad accertarsi che le applicazioni che integrano Azure OpenAI siano conformi al Codice di comportamento.

Passaggi successivi