Exercício – Moderação de texto

Concluído

A Contoso Camping Store oferece aos clientes a capacidade de falar com um agente de suporte ao cliente alimentado por IA e publicar avaliações de produtos. Poderíamos aplicar um modelo de IA para detetar se a entrada de texto de nossos clientes é prejudicial e, posteriormente, usar os resultados da deteção para implementar as precauções necessárias.

Conteúdos seguros

Vamos primeiro testar alguns comentários positivos dos clientes.

  1. Na página Segurança de Conteúdo, selecione Moderar conteúdo de texto.

  2. Na caixa Teste, insira o seguinte conteúdo:

    Eu usei recentemente o PowerBurner Camping Stove na minha viagem de acampamento, e devo dizer, foi fantástico! Foi fácil de usar, e o controle de calor foi impressionante. Ótimo produto!

  3. Defina todos os níveis de Limite como Médio. Uma captura de tela da etapa 2 na página de moderação de texto. Uma caixa de texto é exibida com texto de exemplo. Ao lado da caixa de texto estão os filtros de limite.

  4. Selecione Executar teste.

O conteúdo é permitido e o nível de gravidade é seguro em todas as categorias. Este resultado é de esperar, dado o sentimento positivo e não prejudicial do feedback do cliente.

Uma captura de tela dos resultados para moderação de texto. A captura de tela mostra que o conteúdo é permitido. O nível de severidade para todas as categorias é seguro. As configurações de limite para todas as categorias são médias. E o julgamento para todas as categorias é permitido.

Conteúdos nocivos

Mas o que acontece se testamos uma declaração prejudicial? Vamos testar com feedback negativo dos clientes. Embora não haja problema em não gostar de um produto, não queremos tolerar nenhum xingamento ou declarações degradantes.

  1. Na caixa Teste, insira o seguinte conteúdo:

    Comprei recentemente uma tenda, e devo dizer que estou muito desapontado. Os postes das barracas parecem frágeis e os zíperes estão constantemente presos. Não é o que eu esperava de uma barraca de luxo. Vocês todos são uma e são uma desculpa lamentável para uma marca.

  2. Defina todos os níveis de Limite como Médio.

  3. Selecione Executar teste.

    Uma captura de tela dos resultados da moderação de texto. O conteúdo é permitido, no entanto, o nível de severidade para o ódio é baixo. O nível de gravidade é seguro em todas as outras categorias.

    Embora o conteúdo seja Permitido, o nível de gravidade para Ódio é baixo. Para orientar nosso modelo a bloquear esse tipo de conteúdo, precisamos ajustar o nível de Limiar para o ódio. Um nível de Limite mais baixo bloquearia qualquer conteúdo de gravidade baixa, média ou alta. Não há espaço para exceções!

  4. Defina o nível de Limite para Ódio como Baixo.

    Uma captura de tela das configurações de filtros de configuração para moderação de texto. O limiar para a categoria de ódio é enfatizado e definido como baixo.

  5. Selecione Executar teste.

O conteúdo agora está bloqueado e foi rejeitado pelo filtro na categoria Ódio .

Uma captura de tela dos resultados da moderação de texto. O conteúdo está bloqueado. O nível de severidade para a categoria de ódio é baixo. O limiar para a categoria de ódio é baixo. O julgamento para a categoria de ódio está bloqueado.

Conteúdo violento com erros ortográficos

Não podemos prever que todo o conteúdo de texto dos nossos clientes estará livre de erros ortográficos. Felizmente, a ferramenta Moderar conteúdo de texto pode detetar conteúdo nocivo, mesmo que o conteúdo tenha erros ortográficos. Vamos testar esse recurso em mais comentários de clientes sobre um incidente com um racoon.

  1. Na caixa Teste, insira o seguinte conteúdo:

    Eu comprei recentemente um fogão campin, mas tivemos um acident. Um racon entrou, ficou chocado e morreu. Seu blod está em todo o interior. Como faço para limpar o fogão?

  2. Defina todos os níveis de Limite como Médio.

  3. Selecione Executar teste.

O conteúdo é Bloqueado, o nível de Gravidade para Violência é Médio. Considere um cenário em que o cliente está fazendo essa pergunta em uma conversa com o agente de suporte ao cliente alimentado por IA. O cliente espera receber orientações sobre como limpar o fogão. Pode não haver má intenção em submeter esta pergunta e, portanto, pode ser uma escolha melhor não bloquear esse conteúdo. Como desenvolvedor, considere vários cenários em que esse conteúdo pode estar OK antes de decidir ajustar o filtro e bloquear conteúdo semelhante.

Executar um teste em massa

Até agora, testamos o conteúdo de texto para conteúdo de texto isolado singular. No entanto, se tivermos um conjunto de dados em massa de conteúdo de texto, poderemos testar o conjunto de dados em massa de uma só vez e receber métricas com base no desempenho do modelo.

Temos um conjunto de dados em massa de declarações fornecidas pelos clientes e pelo agente de suporte. O conjunto de dados também inclui declarações prejudiciais fabricadas para testar a capacidade do modelo de detetar conteúdo nocivo. Cada registro no conjunto de dados inclui um rótulo para indicar se o conteúdo é prejudicial. O conjunto de dados consiste em declarações fornecidas por clientes e agentes de suporte ao cliente. Vamos fazer outra rodada de testes, mas desta vez com o conjunto de dados!

  1. Alterne para a guia Executar um teste em massa.

  2. Na seção Selecione uma amostra ou carregue sua própria seção, selecione Procurar um arquivo. Selecione o arquivo e faça o bulk-text-moderation-data.csv upload.

  3. Na seção de visualização do Conjunto de Dados, navegue pelos Registros e pelo Rótulo correspondente. A 0 indica que o conteúdo é aceitável (não prejudicial). A 1 indica que o conteúdo é inaceitável (conteúdo nocivo).

    Uma captura de tela da visualização do conjunto de dados para moderação de texto em massa. Uma lista de registros e seu rótulo correspondente é exibida à esquerda. A seção para configurar filtros é exibida à direita.

  4. Defina todos os níveis de Limite como Médio.

  5. Selecione Executar teste.

Para testes em massa, recebemos uma variedade diferente de resultados de testes. Primeiro, recebemos a proporção de conteúdo permitido versus bloqueado . Além disso, também recebemos uma métrica de Precisão, Recall e F1 Score .

Uma captura de tela dos resultados da moderação de texto em massa.

A métrica Precision revela quanto do conteúdo que o modelo identificou como prejudicial é, na verdade, prejudicial. É uma medida de quão preciso/preciso é o modelo. O valor máximo é 1.

A métrica Recall revela quanto do conteúdo nocivo real o modelo identificou corretamente. É uma medida da capacidade do modelo de identificar conteúdo nocivo real. O valor máximo é 1.

A métrica F1 Score é uma função de Precisão e Recall. A métrica é necessária quando você busca um equilíbrio entre Precisão e Recall. O valor máximo é 1.

Também podemos visualizar cada registro e o nível de gravidade em cada categoria habilitada. A coluna Acórdão é constituída pelo seguinte:

  • Permitido
  • Bloqueado
  • Permitido com aviso
  • Bloqueado com aviso

Os avisos são uma indicação de que o julgamento geral do modelo é diferente da gravadora correspondente. Para resolver essas diferenças, você pode ajustar os níveis de Limite na seção Configurar filtros para ajustar o modelo.

O resultado final que nos é dado é a distribuição entre categorias. Este resultado considera o número de registros que foram considerados seguros em comparação com os registros para a categoria correspondente, que foram Baixo, Médio ou Alto.

Uma captura de tela da gravidade distribuída por resultados de categoria.

Com base nos resultados, há margem para melhorias? Em caso afirmativo, ajuste os níveis de Limite até que as métricas de Precisão, Recall e Pontuação F1 estejam mais próximas de 1.