Esercizio - Moderazione del testo

5 minuti

Contoso Camping Store offre ai clienti la possibilità di parlare con un agente di supporto clienti basato sull'intelligenza artificiale e di pubblicare recensioni sui prodotti. È possibile applicare un modello di intelligenza artificiale per rilevare se l'input di testo dei clienti è dannoso e poi usare i risultati del rilevamento per implementare le precauzioni necessarie.

Contenuto sicuro

Si esaminerà prima di tutto un feedback positivo del cliente.

Nella pagina Sicurezza dei contenuti selezionare Modera contenuto di testo.
Nella casella Test, immettere il contenuto seguente:

Ho recentemente usato la Stufa campeggio PowerBurner per il mio viaggio in campeggio, e devo dire, è stata fantastica! Era facile da usare e il controllo del calore era impressionante. Ottimo prodotto!
Impostare tutti i Livelli soglia su Medio.
Selezionare Esegui test.

Il contenuto è consentito e il livello di gravità è Sicuro in tutte le categorie. Questo risultato è prevedibile visto il sentiment positivo e non dannoso del feedback del cliente.

Contenuto dannoso

Ma cosa succede se testiamo un'istruzione dannosa? Si eseguirà un test con feedback negativo del cliente. Sebbene sia giusto che un prodotto non piaccia, non vogliamo tollerare che si facciano insulti o affermazioni offensive.

Nella casella Test, immettere il contenuto seguente:

Recentemente ho comprato una tenda, e devo dire, sono davvero deluso. I pali della tenda sembrano fragili e le cerniere si incastrano continuamente. Non è quello che mi aspettavo da una tenda di fascia alta. Fate tutti schifo e siete una pessima idea di marchio.
Impostare tutti i Livelli soglia su Medio.
Selezionare Esegui test.

Anche se il contenuto è Consentito, il Livello di gravità per Odio è basso. Per guidare il modello a bloccare tali contenuti, è necessario modificare il Livello soglia per Odio. Un Livello soglia inferiore blocca tutti i contenuti con gravità bassa, media o alta. Non c'è spazio per le eccezioni.
Impostare il Livello soglia per Odio su Basso.
Selezionare Esegui test.

Il contenuto è ora Bloccato ed è stato rifiutato dal filtro nella categoria Odio.

Contenuto violento con errori di ortografia

Non è possibile prevedere che tutto il contenuto di testo dei clienti sia privo di errori ortografici. Fortunatamente, lo strumento Modera contenuto di testo può rilevare contenuto dannoso anche se presenta errori di ortografia. Verrà ora testata questa funzionalità su altri commenti e suggerimenti dei clienti su un evento imprevisto verificatosi con un procione.

Nella casella Test, immettere il contenuto seguente:

Ho acquistato di recente un fornello da campeggio, ma abbiamo avuto un incidente. Un procione è entrato, ha preso la scossa ed è morto. Il suo sangue è sparso per tutto l'interno. Come faccio a pulire il fornello?
Impostare tutti i Livelli soglia su Medio.
Selezionare Esegui test.

Il contenuto è Bloccato, il Livello di gravità per Violenza è Medio. Si consideri uno scenario in cui il cliente pone questa domanda in una conversazione con l'agente di supporto clienti basato sull'intelligenza artificiale. Il cliente spera di ricevere indicazioni su come pulire il fornello. L'invio di questa domanda potrebbe non essere intenzionale e pertanto potrebbe risultare una scelta migliore non bloccare tali contenuti. In qualità di sviluppatore, prendere in considerazione vari scenari in cui tali contenuti possono essere corretti, prima di decidere di modificare il filtro e bloccare contenuti simili.

Eseguire un test in blocco

Finora è stato testato il contenuto di testo per il singolo contenuto di testo isolato. Tuttavia, se si dispone di un set di dati di testo in blocco, è possibile testare il set di dati in blocco in una sola volta e ricevere le metriche in base alle prestazioni del modello.

È disponibile un set di dati in blocco di istruzioni fornite sia dai clienti che dall'agente di supporto. Il set di dati include anche istruzioni dannose, create per testare la capacità del modello di rilevare contenuto dannoso. Ogni record nel set di dati include un'etichetta per indicare se il contenuto è dannoso. Il set di dati è costituito da istruzioni fornite dai clienti e dagli agenti di supporto clienti. Si eseguirà un altro round di test, ma questa volta con il set di dati.

Passare alla scheda Esegui un test in blocco.
Nella sezione Selezionare un esempio o caricarne uno personalizzato selezionare Cerca un file. Selezionare il file bulk-text-moderation-data.csv e caricarlo.
Nella sezione Anteprima set di dati, esaminare i Recorde l'Etichetta corrispondente. Un valore 0 indica che il contenuto è accettabile (non dannoso). Un valore 1 indica che il contenuto non è accettabile (contenuto dannoso).
Impostare tutti i Livelli soglia su Medio.
Selezionare Esegui test.

Per i test in blocco, è disponibile un'ampia gamma di risultati del test. In primo luogo, viene fornita la proporzione di Contenuto consentito rispetto a bloccato. Inoltre, riceviamo anche una metrica Precisione, Richiamol e Punteggio F1.

La metrica Precisione rivela quanto del contenuto identificato dal modello come dannoso sia effettivamente dannoso. Si tratta di una misurazione della precisione/accuratezza del modello. Il valore massimo è 1.

La metrica Richiamo rivela la quantità di contenuto dannoso effettivo identificato correttamente dal modello. Si tratta di una misura della capacità del modello di identificare il contenuto dannoso effettivo. Il valore massimo è 1.

La metrica Punteggio F1 è una funzione di Precisione e Richiamo. La metrica è necessaria quando si cerca un equilibrio tra Precisione e Richiamo. Il valore massimo è 1.

È anche possibile visualizzare ogni record e il Livello di gravità in ogni categoria abilitata. La colonna Giudizio è costituita dai seguenti elementi:

Consentito
Bloccato
Consentito con avviso
Bloccato con avviso

Gli avvisi indicano che il giudizio generale del modello è diverso dall'etichetta di record corrispondente. Per risolvere tali differenze, è possibile modificare i Livelli soglia all'interno della sezione Configura filtri per ottimizzare il modello.

Il risultato che viene fornito è la distribuzione tra le categorie. Questo risultato considera il numero di record che sono stati giudicati come Sicuri rispetto ai record per la categoria corrispondente, che erano Basso, Medio o Alto.

In base ai risultati, ci sono margini di miglioramento? In tal caso, modificare i Livelli soglia fino a quando le metriche Precisione, Richiamo e Punteggio F1 sono più vicine a 1.

Esercizio - Moderazione del testo

Contenuto sicuro

Contenuto dannoso

Contenuto violento con errori di ortografia

Eseguire un test in blocco

Commenti e suggerimenti